AWS在re:Invent2025大会上推出四款自研“Nova2”系列大模型,覆盖文本、图像、视频、语音多模态场景,并首次内置网页检索与代码执行能力,宣称在价格性能比上达到业界领先。其中,Nova2 Lite定位高性价比推理,在多项基准测试中表现优于Claude Haiku4.5和GPT-5Mini,成本仅为后者约50%;Nova2 Pro则面向复杂Agent任务。
谷歌推出NotebookLM图像识别功能,支持上传板书、教材或表格图片,自动完成文字识别与语义分析,用户可直接用自然语言检索图片内容。该功能全平台免费,即将增加本地处理选项保护隐私。系统采用多模态技术,能区分手写与印刷体、解析表格结构,并与现有笔记智能关联。
谷歌为Chrome浏览器新增AI功能,在最新测试版中推出由Gemini驱动的“Nano Banana”图像生成工具和“深度搜索”主题研究功能。用户可直接在搜索框内创作图像或进行信息检索,无需切换页面即可快速启动任务。
腾讯开源多模态文档理解工具WeKnora,支持PDF、Word等格式的智能解析与检索。该工具基于大语言模型,具备文本、表格、图像等复杂文档的结构化处理能力,可生成统一语义视图。其核心优势包括:1)智能交互支持自然语言问答和多轮对话;2)模块化架构便于定制开发;3)适用于企业知识库、科研文献分析等场景。WeKnora的开源将推动文档处理智能化发展,项目已在GitHub发布。
多模态信息检索与重排序模型,支持文本、图像、视频等输入。
多语言多模态嵌入模型,用于文本和图像检索。
多模态嵌入模型,实现文本、图像和截图的无缝检索。
视觉位置识别通过图像片段检索
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
-
$1
$10
256
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
facebook
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调就能在多种视觉任务中超越专门的先进模型。该模型采用Vision Transformer架构,在16.89亿张网络图像上预训练,能生成高质量的密集特征,在图像分类、分割、检索等任务中表现出色。
redlessone
DermLIP是一款专门针对皮肤病学领域的视觉语言模型,基于最大的皮肤病学图像文本语料库Derm1M训练而成。该模型采用CLIP风格的架构,能够执行皮肤病相关的多种任务,包括零样本分类、少样本学习、跨模态检索和概念注释等。
NCSOFT
GME-VARCO-VISION-Embedding是一个多模态嵌入模型,专注于在高维嵌入空间中计算文本、图像和视频之间的语义相似度,尤其擅长视频检索任务。
chs20
FuseLIP是一种创新的多模态嵌入模型,它通过一个单一的Transformer模型,使用扩展的词汇表同时处理文本和图像离散令牌,实现了模态间的早期深度融合。该方法解决了传统对比式语言-图像预训练模型无法原生编码多模态输入的问题,在视觉问答和文本引导的图像检索等任务上表现出色。
kshitij3188
PHOENIX是一个基于CLIP/ViT的领域自适应模型,旨在提升专利图像检索能力,特别适用于检索语义或层次相关的图像而不仅仅是精确匹配。
nomic-ai
ColNomic Embed Multimodal 7B是一款多向量最先进的多模态嵌入模型,擅长视觉文档检索任务,支持多语言和统一文本图像编码。
Nomic Embed Multimodal 3B是一款顶尖的多模态嵌入模型,专注于视觉文档检索任务,支持统一文本-图像编码,在Vidore-v2测试中达到58.8 NDCG@5的卓越性能。
ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型,专为视觉文档检索任务设计,支持多语言文本和图像的统一编码。
tsystems
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型,支持动态输入图像分辨率和多语言文档检索。
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型,支持动态输入图像分辨率,生成ColBERT风格的多向量文本与图像表征。
vidore
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能生成文本与图像的多向量表征
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的视觉检索模型,能够生成文本和图像的多向量表示,用于高效文档检索。
gersonrpq
该模型基于2小时博物馆导览中的画作进行训练,旨在增强图像检索和画框零样本学习中的绘画特征提取能力。
ModelsLab
这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型,擅长零样本图像分类和跨模态检索任务。
recallapp
基于OpenCLIP框架在LAION-2B英语数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
llm-jp
基于OpenCLIP框架训练的日语CLIP模型,在14.5亿日文图文对数据集上训练,支持零样本图像分类和图文检索任务
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能够生成多向量文本与图像表示
yydxlv
基于Qwen2-VL-7B-Instruct与ColBERT策略的视觉检索模型,支持多向量文本与图像表示
uta-smile
InstructCIR是一个基于指令感知对比学习的组合式图像检索模型,采用ViT-L-224和Phi-3.5-Mini架构,专注于图像文本到文本生成任务。
google
基于SoViT主干网络、采用Sigmoid损失函数改进的多模态模型,支持零样本图像分类和图文检索
AWS MCP Servers是一套基于Model Context Protocol的专用服务器,提供多种AWS相关功能,包括文档检索、知识库查询、CDK最佳实践、成本分析、图像生成等,旨在通过标准化协议增强AI应用与AWS服务的集成。