在人工智能技术快速发展的今天,阿里巴巴于6月6日正式开源了其全新的千问3向量模型系列 ——Qwen3-Embedding。该模型是基于千问3底座,为文本表征、检索和排序等任务进行优化,标志着阿里在 AI 领域的又一重大突破。相较于前一版本,Qwen3-Embedding 在文本检索、聚类和分类等核心任务上的性能提升了超过40%。这一进步不仅让它在技术上更具竞争力,还使得它在 MTEB 等专业榜单中,超越了谷歌的 Gemini Embedding、OpenAI 的 text-embedding-3-large 以及微软的 multilingual-e5-large-instruct 等顶尖模型,获得了
["微软 Azure AI 文本转语音服务进行升级,新增了男声和更多语言支持。","新增男声 Ryan Multilingual,使用户能够创建多样化的用户体验。","语言支持从 14 种扩展到 41 种,为用户提供更多的选择。"]
SamilPwC-AXNode-GenAI
PwC-Embedding-expr 是基于 multilingual-e5-large-instruct 嵌入模型训练的韩语优化版本,通过精心设计的增强方法和微调策略提升在韩语语义文本相似度任务上的性能。
AnasAlokla
这是一个强大的多语言、多标签情感分类模型,能够分析文本并识别27种不同的情感以及中性类别,支持同时检测多种情感,有效理解来自不同语言来源的细微文本表达。
OpenMed
这是一款专门用于临床实体识别的专业模型,专注于慢性淋巴细胞白血病相关的生物医学实体识别。该模型基于multilingual-e5-large-instruct架构,在精心策划的CLL数据集上训练,能够从医疗文本中精准提取生物医学实体,具有高精度和领域特异性。
dragonkue
基于intfloat/multilingual-e5-small微调的韩语句子转换器,用于韩语检索任务
MesTruck
多语言e5大指令模型支持多种语言,在分类、检索、聚类等多项任务中表现出色,可广泛应用于各类自然语言处理场景。
这是一个强大的多语言、多标签情感分类模型,支持6种主要语言,能够同时检测文本中的27种不同情感和中性类别,适用于全球范围内的情感分析应用。
falan42
多语言E5大型池化模型,支持多种语言的句子相似度计算和特征提取任务。
exp-models
这是一个从intfloat/multilingual-e5-small微调而来的sentence-transformers模型,专门针对韩语检索任务优化,将文本映射到384维向量空间。
这是一个从intfloat/multilingual-e5-small微调而来的sentence-transformers模型,训练数据包含韩语查询-段落对,以提高韩语检索任务的性能。
meandyou200175
这是一个基于multilingual-e5-large微调的句子转换器模型,可将文本映射到1024维向量空间,用于语义相似度计算和文本检索等任务。
Gomez12
多语言E5大型指令模型,支持多种语言的文本嵌入和分类任务,具有强大的跨语言能力。
ytu-ce-cosmos
基于intfloat/multilingual-e5-large-instruct模型微调的土耳其语检索模型,专注于土耳其语段落检索任务。
基于BERT的多语言情感分类模型,支持6种语言的文本情感分析
textdetox
基于bert-base-multilingual-cased微调的多语言毒性分类器,支持15种语言,在textdetox/multilingual_toxicity_dataset数据集上训练,能够有效识别文本中的毒性内容。
kcccat
多语言E5大型指令模型,支持超过100种语言的文本嵌入和分类任务
x1saint
这是一个从intfloat/multilingual-e5-small微调而来的sentence-transformers模型,用于将句子和段落映射到384维的密集向量空间,支持语义文本相似度、语义搜索等任务。
makiart
由Algomatic团队开发的多语言大型BERT模型,支持8192上下文长度,训练约600亿token,适用于填充掩码任务。
由Algomatic团队开发的多语言BERT模型,支持填充掩码任务,具有8192的上下文长度和151,680的词汇量。
Impulse2000
多语言E5大型指令模型,支持多种语言的文本嵌入和分类任务