Best 多模态检索 AI Tools & Models - Premium 多模态检索 News

AI News

谷歌发布 Gemini Embedding2:原生多模态嵌入模型统一文本、图像与音视频语义空间

谷歌发布Gemini Embedding2多模态嵌入模型，可将文本、图像、视频、音频及PDF统一映射到同一语义空间，简化AI数据处理，提升多模态检索与理解能力。这标志着谷歌从单一文本嵌入迈向统一多模态语义建模。此前，谷歌曾推出支持百种语言的文本嵌入模型。

11k yesterday

谷歌发布 Gemini Embedding2:原生多模态嵌入模型统一文本、图像与音视频语义空间

谷歌Gemini Embedding 2重磅发布！首款全多模态嵌入模型来了

谷歌推出Gemini Embedding2，这是首款基于Gemini架构的多模态嵌入模型，已在Gemini API和Vertex AI开放预览。该模型将文本、图像、视频、音频和文档等数据类型映射到统一嵌入空间，实现跨模态检索与分类，支持超过100种语言。

15.3k 4 hours ago

AI日报：美团Tabbit浏览器开启公测；通义发布语音双模型；Notion 引入首个开源权重模型 MiniMax M2.5

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、美团旗下光年之外Tabbit浏览器开启公测:集成多模型AIAgent，支持全自动化网页执行Tabbit浏览器的发布标志着浏览器从流量入口向具备执行能力的个人办公大脑转变，为AI技术的应用普及和生产力重构提供了新方向。北京大学联手OceanBase打造LoVR基准：入选WWW2026，开启“全视频片段级”智能检索新范式LoVR基准的发布标志着长视频多模态检索评测进入新阶段，解决了传统短视频检索难以应对长视频复杂语义关联的问题，为未来视频搜索引擎和AI剪辑助手提供了可靠基础。

30.6k 5 hours ago

AI日报：美团Tabbit浏览器开启公测；通义发布语音双模型；Notion 引入首个开源权重模型 MiniMax M2.5

AI日报：千问Qwen3-VL双子星开源；腾讯内测“上头蛙”AI互动故事小程序；小鹏祭出“物理世界大模型”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、通义千问再下一城：Qwen3-VL双子星开源，多模态检索迎来新范式阿里通义实验室开源了Qwen3-VL-Embedding与Qwen3-VL-Reranker模型，标志着多模态信息检索进入语义对齐的新纪元。马斯克确认GrokCode将进入密集更新期，这预示着AI编程工具市场将迎来更激烈的竞争。

27.3k 5 hours ago

AI日报：千问Qwen3-VL双子星开源；腾讯内测“上头蛙”AI互动故事小程序；小鹏祭出“物理世界大模型”

AI Products

Qwen3-VL-Reranker-8B

多模态信息检索与重排序模型，支持文本、图像、视频等输入。

AI搜索

7.7k

M2RAG

用于多模态上下文中的检索增强生成的基准测试代码库。

AI模型

9.9k

jina-clip-v2

多语言多模态嵌入模型，用于文本和图像检索。

AI搜索

10.7k

voyage-multimodal-3

多模态嵌入模型，实现文本、图像和截图的无缝检索。

AI模型

11.6k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

MCP

Websearchmcp

联网搜索MCP是基于腾讯云联网搜索API封装的服务，提供毫秒级响应、分钟级更新的智能搜索能力，支持自然结果检索、多模态VR卡等多种功能，帮助开发者快速集成互联网搜索能力。

11.1k

2.5points

DataBridge

Morphik MCP是一个多模态数据库交互协议服务器，支持文档管理、检索和文件系统操作

typescript

9.1k

2.5points

Rag Anything Mcp

RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器，支持多模态文档处理与查询，具备端到端文档解析、批量处理、高级查询及持久化存储等功能。

python

9.8k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

谷歌发布 Gemini Embedding2:原生多模态嵌入模型统一文本、图像与音视频语义空间

谷歌Gemini Embedding 2重磅发布！首款全多模态嵌入模型来了

AI日报：美团Tabbit浏览器开启公测；通义发布语音双模型；Notion 引入首个开源权重模型 MiniMax M2.5

AI日报：千问Qwen3-VL双子星开源；腾讯内测“上头蛙”AI互动故事小程序；小鹏祭出“物理世界大模型”

AI Products

Qwen3-VL-Reranker-8B

M2RAG

jina-clip-v2

voyage-multimodal-3

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

Qianfan-Lightning

qwen3-max

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Step Audio 2 Mini

DermLIP_ViT B 16

GME VARCO VISION Embedding

Holo1 3B GGUF

Holo1 7B GGUF

Granite Vision 3.3 2b Embedding

FuseLIP B CC12M MM

Jina Embeddings V4

UniME Phi3.5 V 4.2B

Colnomic Embed Multimodal 7b

Nomic Embed Multimodal 7b

Nomic Embed Multimodal 3b

Colnomic Embed Multimodal 3b

ReT OpenCLIP ViT G 14

ReT OpenCLIP ViT H 14

ReT CLIP ViT L 14

MuQ Large Msd Iter

Siglip So400m Patch16 256 I18n

Marqo FashionSigLIP

Marqo FashionCLIP

MCP

Websearchmcp

DataBridge

Rag Anything Mcp