蚂蚁集团与上海交通大学联合发布F2LLM-v2系列Embedding模型,旨在打破语义表征领域的“英语中心主义”。该模型在权威评测MTEB榜单中横扫11项SOTA,展现统治级性能。作为全开源方案,它兼顾高性能与极致效率,为全球开发者提供先进的语义表征工具。
谷歌发布Gemini Embedding2多模态嵌入模型,可将文本、图像、视频、音频及PDF统一映射到同一语义空间,简化AI数据处理,提升多模态检索与理解能力。这标志着谷歌从单一文本嵌入迈向统一多模态语义建模。此前,谷歌曾推出支持百种语言的文本嵌入模型。
谷歌推出原生多模态嵌入模型Gemini Embedding2,支持文本、图像、视频、音频和文档,统一映射到向量空间,实现跨媒体深度理解。与生成式模型不同,它专注于“理解”,将数据转化为向量,帮助系统识别语义关系。
谷歌推出Gemini Embedding2,这是首款基于Gemini架构的多模态嵌入模型,已在Gemini API和Vertex AI开放预览。该模型将文本、图像、视频、音频和文档等数据类型映射到统一嵌入空间,实现跨模态检索与分类,支持超过100种语言。
Gemini Embedding 是一种先进的文本嵌入模型,通过 Gemini API 提供强大的语言理解能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
s3dev-ai
这是Google embeddinggemma-300m基础模型的各种GGUF格式量化版本,专门为高效部署和不同场景使用而优化。该模型专注于句子嵌入和相似度计算任务。
nvidia
Llama Nemotron Embedding 1B模型是NVIDIA开发的专为多语言和跨语言文本问答检索优化的嵌入模型,支持26种语言,能够处理长达8192个标记的文档,并可通过动态嵌入大小大幅减少数据存储占用。
mlx-community
这是一个转换为MLX格式的文本嵌入模型,基于Google的EmbeddingGemma-300m模型转换而来,专门用于句子相似度计算和文本嵌入任务。模型采用BF16精度,适用于苹果芯片设备上的高效推理。
EmbeddingGemma-300m-8bit是基于sentence-transformers库实现的句子相似度模型,支持以MLX格式运行,专门用于计算句子嵌入和相似度。该模型从原始模型转换而来,提供高效的文本特征提取能力。
EmbeddingGemma 300M 4bit是Google开发的轻量级文本嵌入模型,专门针对MLX框架优化。该模型能够将文本转换为高质量的向量表示,适用于各种自然语言处理任务,特别是句子相似度计算和特征提取。
ggml-org
embeddinggemma-300m-qat-q8_0 GGUF 是一款基于Google embeddinggemma-300m模型的量化版本,专门用于特征提取和句子相似度计算。该模型经过量化优化,在保持较高精度的同时显著减小了模型大小和推理开销。
embeddinggemma-300M是一个经过量化优化的轻量级文本嵌入模型,基于Google的embeddinggemma架构,采用QAT(量化感知训练)和Q4_0量化技术,参数量为300M。该模型专门用于生成高质量的文本嵌入向量,支持句子相似度计算和特征提取等任务。
jinaai
Jina Code Embeddings 是一款专为代码检索设计的嵌入模型,基于Qwen2.5-Coder-0.5B构建,支持15种以上编程语言,适用于文本到代码、代码到代码、代码到文本、代码到补全等多种代码检索任务以及技术问答。
tera0711
embeddings 项目是一个基于 LoRA 和 Diffusers 技术的文本到图像转换模型,使用 stabilityai/stable-diffusion-3.5-large 作为基础模型,提供了扩散 LoRA 模板,能够基于特定模型生成高质量的图像。
michaelfeil
Qwen3 Embedding 模型系列是通义家族的最新自研模型,专为文本嵌入和排序任务设计,支持100多种语言,在MTEB多语言排行榜上排名第一。
Jina Embeddings v4 是一款专为多模态和多语言检索设计的通用嵌入模型,特别适用于复杂文档的检索,包括包含图表、表格和插图的视觉丰富文档。
Daxtra
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度计算和特征提取任务。
koble-ai
narainp
Jina Embeddings V2 Base 是一个高效的英文句子嵌入模型,专注于句子相似度和特征提取任务。
ai-sage
Giga Embeddings Instruct 是一个高性能的嵌入模型,专注于文本分类和检索任务,在多个基准测试中表现出色。
gaianet
Jina Embeddings V2 Base Code 是一个基于转换器架构的英文文本嵌入模型,专注于代码相关文本的特征提取和句子相似度计算。
second-state
Jina Embeddings V2 Base Code 是一个基于转换器架构的英文句子嵌入模型,专注于代码相关文本的特征提取和相似度计算。
ibm-granite
IBM Granite Embedding 30M English 是一个基于 transformer 架构的英文文本嵌入模型,由 IBM 开发并发布。
Haon-Chen
Speed Embedding 7B Instruct 是一个基于 Transformer 架构的大规模语言模型,专注于文本嵌入和分类任务,在多个基准测试中表现出色。
arkohut
Claude本地语义代码搜索工具,使用EmbeddingGemma模型实现完全离线的多语言代码智能搜索,通过MCP协议与Claude Code集成,保护隐私且无需API密钥