谷歌发布Gemini Embedding2多模态嵌入模型,可将文本、图像、视频、音频及PDF统一映射到同一语义空间,简化AI数据处理,提升多模态检索与理解能力。这标志着谷歌从单一文本嵌入迈向统一多模态语义建模。此前,谷歌曾推出支持百种语言的文本嵌入模型。
谷歌推出Gemini Embedding2,这是首款基于Gemini架构的多模态嵌入模型,已在Gemini API和Vertex AI开放预览。该模型将文本、图像、视频、音频和文档等数据类型映射到统一嵌入空间,实现跨模态检索与分类,支持超过100种语言。
字节跳动火山引擎将于2月14日发布技术升级,重点推出“豆包”系列2.0版本,包括音视频工具Seedance2.0和图像工具Seedream5.0Preview。Seedance2.0在交互与画面稳定性上达到行业领先,支持全模态输入,输出质量满足影视广告等专业需求。Seedream首次引入实时信息检索功能,确保创作内容与社会时事同步。
AWS在re:Invent2025大会上推出四款自研“Nova2”系列大模型,覆盖文本、图像、视频、语音多模态场景,并首次内置网页检索与代码执行能力,宣称在价格性能比上达到业界领先。其中,Nova2 Lite定位高性价比推理,在多项基准测试中表现优于Claude Haiku4.5和GPT-5Mini,成本仅为后者约50%;Nova2 Pro则面向复杂Agent任务。
Nano Banana 2集成谷歌4K AI图像生成技术,支持语义检索与高分辨率输出
多模态信息检索与重排序模型,支持文本、图像、视频等输入。
多语言多模态嵌入模型,用于文本和图像检索。
多模态嵌入模型,实现文本、图像和截图的无缝检索。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
-
$1
$10
256
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
facebook
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调就能在多种视觉任务中超越专门的先进模型。该模型采用Vision Transformer架构,在16.89亿张网络图像上预训练,能生成高质量的密集特征,在图像分类、分割、检索等任务中表现出色。
redlessone
DermLIP是一款专门针对皮肤病学领域的视觉语言模型,基于最大的皮肤病学图像文本语料库Derm1M训练而成。该模型采用CLIP风格的架构,能够执行皮肤病相关的多种任务,包括零样本分类、少样本学习、跨模态检索和概念注释等。
NCSOFT
GME-VARCO-VISION-Embedding是一个多模态嵌入模型,专注于在高维嵌入空间中计算文本、图像和视频之间的语义相似度,尤其擅长视频检索任务。
chs20
FuseLIP是一种创新的多模态嵌入模型,它通过一个单一的Transformer模型,使用扩展的词汇表同时处理文本和图像离散令牌,实现了模态间的早期深度融合。该方法解决了传统对比式语言-图像预训练模型无法原生编码多模态输入的问题,在视觉问答和文本引导的图像检索等任务上表现出色。
kshitij3188
PHOENIX是一个基于CLIP/ViT的领域自适应模型,旨在提升专利图像检索能力,特别适用于检索语义或层次相关的图像而不仅仅是精确匹配。
nomic-ai
ColNomic Embed Multimodal 7B是一款多向量最先进的多模态嵌入模型,擅长视觉文档检索任务,支持多语言和统一文本图像编码。
Nomic Embed Multimodal 3B是一款顶尖的多模态嵌入模型,专注于视觉文档检索任务,支持统一文本-图像编码,在Vidore-v2测试中达到58.8 NDCG@5的卓越性能。
ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型,专为视觉文档检索任务设计,支持多语言文本和图像的统一编码。
tsystems
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型,支持动态输入图像分辨率和多语言文档检索。
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型,支持动态输入图像分辨率,生成ColBERT风格的多向量文本与图像表征。
vidore
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能生成文本与图像的多向量表征
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的视觉检索模型,能够生成文本和图像的多向量表示,用于高效文档检索。
gersonrpq
该模型基于2小时博物馆导览中的画作进行训练,旨在增强图像检索和画框零样本学习中的绘画特征提取能力。
ModelsLab
这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型,擅长零样本图像分类和跨模态检索任务。
recallapp
基于OpenCLIP框架在LAION-2B英语数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
llm-jp
基于OpenCLIP框架训练的日语CLIP模型,在14.5亿日文图文对数据集上训练,支持零样本图像分类和图文检索任务
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能够生成多向量文本与图像表示
yydxlv
基于Qwen2-VL-7B-Instruct与ColBERT策略的视觉检索模型,支持多向量文本与图像表示
uta-smile
InstructCIR是一个基于指令感知对比学习的组合式图像检索模型,采用ViT-L-224和Phi-3.5-Mini架构,专注于图像文本到文本生成任务。
google
基于SoViT主干网络、采用Sigmoid损失函数改进的多模态模型,支持零样本图像分类和图文检索
AWS MCP Servers是一套基于Model Context Protocol的专用服务器,提供多种AWS相关功能,包括文档检索、知识库查询、CDK最佳实践、成本分析、图像生成等,旨在通过标准化协议增强AI应用与AWS服务的集成。