AWS在re:Invent2025大会上推出四款自研“Nova2”系列大模型,覆盖文本、图像、视频、语音多模态场景,并首次内置网页检索与代码执行能力,宣称在价格性能比上达到业界领先。其中,Nova2 Lite定位高性价比推理,在多项基准测试中表现优于Claude Haiku4.5和GPT-5Mini,成本仅为后者约50%;Nova2 Pro则面向复杂Agent任务。
谷歌推出NotebookLM图像识别功能,支持上传板书、教材或表格图片,自动完成文字识别与语义分析,用户可直接用自然语言检索图片内容。该功能全平台免费,即将增加本地处理选项保护隐私。系统采用多模态技术,能区分手写与印刷体、解析表格结构,并与现有笔记智能关联。
清华大学等机构联合发布全球首个基于MCP架构的开源RAG框架UltraRAG2.1,通过YAML配置即可实现多模态智能检索系统的多阶段推理与评估,无需编程,显著降低技术门槛,推动检索增强生成技术发展。
Elastic宣布完成对Jina AI的收购,强化开源检索与多模态AI布局。Jina AI创始人肖涵将出任Elastic AI副总裁,领导团队继续研发向量模型、重排器等核心技术。Jina AI成立于2020年,累计融资3720万美元。
用于多模态上下文中的检索增强生成的基准测试代码库。
多语言多模态嵌入模型,用于文本和图像检索。
多模态嵌入模型,实现文本、图像和截图的无缝检索。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
redlessone
DermLIP是一款专门针对皮肤病学领域的视觉语言模型,基于最大的皮肤病学图像文本语料库Derm1M训练而成。该模型采用CLIP风格的架构,能够执行皮肤病相关的多种任务,包括零样本分类、少样本学习、跨模态检索和概念注释等。
NCSOFT
GME-VARCO-VISION-Embedding是一个多模态嵌入模型,专注于在高维嵌入空间中计算文本、图像和视频之间的语义相似度,尤其擅长视频检索任务。
Mungert
Holo1-3B是基于Transformer架构的多模态模型,专注于视觉文档检索任务,在WebVoyager基准测试中表现出色,平衡了准确性和成本。
Holo1-7B GGUF模型是Surfer-H系统的一部分,适用于视觉文档检索等多模态任务,特别擅长网页交互和网络监控,能以较低成本实现高准确性。
ibm-granite
基于granite-vision-3.3-2b构建的高效嵌入模型,专为多模态文档检索设计,可处理包含表格、图表、信息图和复杂布局的文档。
chs20
FuseLIP是一种创新的多模态嵌入模型,它通过一个单一的Transformer模型,使用扩展的词汇表同时处理文本和图像离散令牌,实现了模态间的早期深度融合。该方法解决了传统对比式语言-图像预训练模型无法原生编码多模态输入的问题,在视觉问答和文本引导的图像检索等任务上表现出色。
jinaai
Jina Embeddings v4 是一款专为多模态和多语言检索设计的通用嵌入模型,特别适用于复杂文档的检索,包括包含图表、表格和插图的视觉丰富文档。
DeepGlint-AI
UniME 是一个基于多模态大模型的通用嵌入学习模型,专注于打破模态壁垒,实现跨模态检索和嵌入学习。
nomic-ai
ColNomic Embed Multimodal 7B是一款多向量最先进的多模态嵌入模型,擅长视觉文档检索任务,支持多语言和统一文本图像编码。
70亿参数的多模态嵌入模型,专精于视觉文档检索任务,在Vidore-v2基准测试中表现卓越
Nomic Embed Multimodal 3B是一款顶尖的多模态嵌入模型,专注于视觉文档检索任务,支持统一文本-图像编码,在Vidore-v2测试中达到58.8 NDCG@5的卓越性能。
ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型,专为视觉文档检索任务设计,支持多语言文本和图像的统一编码。
aimagelab
ReT是一种支持多模态查询与文档检索的创新方法,通过整合视觉与文本主干网络不同层级的多元表征实现细粒度检索。
ReT是一种支持多模态查询与文档检索的创新方法,通过整合视觉与文本骨干网络不同层级的多元表征实现细粒度检索。
ReT是一种支持多模态查询与文档检索的创新方法,通过融合视觉与文本骨干网络多层级表征实现细粒度检索。
OpenMuQ
MuQ是基于梅尔残差向量量化的自监督音乐表征学习模型,MuQ-MuLan是音乐-文本联合嵌入模型。MuQ在多个音乐信息检索任务中达到当前最优水平,支持音乐音频特征提取和音乐文本跨模态检索。
google
基于SoViT主干网络、采用Sigmoid损失函数改进的多模态模型,支持零样本图像分类和图文检索
Styld
基于ViT-B-16-SigLIP微调的时尚多模态检索模型,专注于时尚产品搜索
Marqo
Marqo-FashionCLIP 是一个基于 CLIP 架构的时尚领域多模态检索模型,通过广义对比学习在时尚产品搜索任务上达到最先进性能。
联网搜索MCP是基于腾讯云联网搜索API封装的服务,提供毫秒级响应、分钟级更新的智能搜索能力,支持自然结果检索、多模态VR卡等多种功能,帮助开发者快速集成互联网搜索能力。
Morphik MCP是一个多模态数据库交互协议服务器,支持文档管理、检索和文件系统操作
RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器,支持多模态文档处理与查询,具备端到端文档解析、批量处理、高级查询及持久化存储等功能。