在人工智能技術快速發展的今天,阿里巴巴於6月6日正式開源了其全新的千問3向量模型系列 ——Qwen3-Embedding。該模型是基於千問3底座,爲文本表徵、檢索和排序等任務進行優化,標誌着阿里在 AI 領域的又一重大突破。相較於前一版本,Qwen3-Embedding 在文本檢索、聚類和分類等核心任務上的性能提升了超過40%。這一進步不僅讓它在技術上更具競爭力,還使得它在 MTEB 等專業榜單中,超越了谷歌的 Gemini Embedding、OpenAI 的 text-embedding-3-large 以及微軟的 multilingual-e5-large-instruct 等頂尖模型,獲得了
["微軟 Azure AI 文本轉語音服務進行升級,新增了男聲和更多語言支持。","新增男聲 Ryan Multilingual,使用戶能夠創建多樣化的用戶體驗。","語言支持從 14 種擴展到 41 種,爲用戶提供更多的選擇。"]
SamilPwC-AXNode-GenAI
PwC-Embedding-expr 是基於 multilingual-e5-large-instruct 嵌入模型訓練的韓語優化版本,通過精心設計的增強方法和微調策略提升在韓語語義文本相似度任務上的性能。
AnasAlokla
這是一個強大的多語言、多標籤情感分類模型,能夠分析文本並識別27種不同的情感以及中性類別,支持同時檢測多種情感,有效理解來自不同語言來源的細微文本表達。
OpenMed
這是一款專門用於臨床實體識別的專業模型,專注於慢性淋巴細胞白血病相關的生物醫學實體識別。該模型基於multilingual-e5-large-instruct架構,在精心策劃的CLL數據集上訓練,能夠從醫療文本中精準提取生物醫學實體,具有高精度和領域特異性。
dragonkue
基於intfloat/multilingual-e5-small微調的韓語句子轉換器,用於韓語檢索任務
MesTruck
多語言e5大指令模型支持多種語言,在分類、檢索、聚類等多項任務中表現出色,可廣泛應用於各類自然語言處理場景。
這是一個強大的多語言、多標籤情感分類模型,支持6種主要語言,能夠同時檢測文本中的27種不同情感和中性類別,適用於全球範圍內的情感分析應用。
falan42
多語言E5大型池化模型,支持多種語言的句子相似度計算和特徵提取任務。
exp-models
這是一個從intfloat/multilingual-e5-small微調而來的sentence-transformers模型,專門針對韓語檢索任務優化,將文本映射到384維向量空間。
這是一個從intfloat/multilingual-e5-small微調而來的sentence-transformers模型,訓練數據包含韓語查詢-段落對,以提高韓語檢索任務的性能。
meandyou200175
這是一個基於multilingual-e5-large微調的句子轉換器模型,可將文本映射到1024維向量空間,用於語義相似度計算和文本檢索等任務。
Gomez12
多語言E5大型指令模型,支持多種語言的文本嵌入和分類任務,具有強大的跨語言能力。
ytu-ce-cosmos
基於intfloat/multilingual-e5-large-instruct模型微調的土耳其語檢索模型,專注於土耳其語段落檢索任務。
基於BERT的多語言情感分類模型,支持6種語言的文本情感分析
textdetox
基於bert-base-multilingual-cased微調的多語言毒性分類器,支持15種語言,在textdetox/multilingual_toxicity_dataset數據集上訓練,能夠有效識別文本中的毒性內容。
kcccat
多語言E5大型指令模型,支持超過100種語言的文本嵌入和分類任務
x1saint
這是一個從intfloat/multilingual-e5-small微調而來的sentence-transformers模型,用於將句子和段落映射到384維的密集向量空間,支持語義文本相似度、語義搜索等任務。
makiart
由Algomatic團隊開發的多語言大型BERT模型,支持8192上下文長度,訓練約600億token,適用於填充掩碼任務。
由Algomatic團隊開發的多語言BERT模型,支持填充掩碼任務,具有8192的上下文長度和151,680的詞彙量。
Impulse2000
多語言E5大型指令模型,支持多種語言的文本嵌入和分類任務