今日、急速発展を遂げている人工知能技術において、アリババは6月6日に正式に新たな千問3方向ベクトルモデルシリーズ - Qwen3-Embedding をオープンソースしました。このモデルは千問3ベースに基づいており、テキスト表現、検索、並べ替えなどのタスクに最適化されており、アリがAI分野で達成したもう一つの重要なブレークスルーを示しています。
前バージョンと比較すると、Qwen3-Embedding はテキスト検索、クラスタリング、分類など、主要なタスクでのパフォーマンスが40%以上向上しました。この進歩により、技術的に競争力を高めただけでなく、MTEBなどの専門的なランキングリストにおいて、GoogleのGemini Embedding、OpenAIのtext-embedding-3-large、Microsoftのmultilingual-e5-large-instructといったトップモデルを凌駕し、類似のモデルで最高のパフォーマンス(SOTA)を達成しました。
画像出典:AI生成
簡単に言うと、ベクトルモデルはAIの「翻訳機」として捉えられます。テキストや画像などの非構造化情報を、機械が理解しやすいベクトルに変換することで、効率的な情報分類、検索、並べ替えを可能にします。千問3モデルに基づき、通義チームはコントラスト学習、SFT、モデル融合などさまざまな手法を用いて、この新しいベクトルモデルを開発し、テキスト埋め込みモデルQwen3-Embeddingおよびテキスト並べ替えモデルQwen3-Rerankerを含むシリーズを完成させました。
特に注目すべきは、千問3ベクトルモデルの強力なマルチリンガル能力です。100以上の言語、複数のプログラミング言語をサポートしており、卓越したマルチリンガル、クロスリンガル、コード検索能力を発揮しています。これにより、グローバルな開発者にとってより広範な応用範囲が提供されます。
今回オープンソースされた千問3ベクトルモデルには、9種類の異なるサイズ(0.6B、4B、8Bなど)およびGGUFバージョンが含まれており、開発者はニーズに応じて適切なモデルを選択し、モジュールを自由に組み合わせたり、カスタムベクトルや命令を作成したりして、特定のタスク、言語、シナリオに深く最適化することが可能です。この柔軟性は開発者の作業効率を大幅に向上させるでしょう。
現在、千問3EmbeddingとRerankerモデルはMagdaコミュニティ、Hugging Face、GitHubなどのプラットフォームでオープンソース化されています。また、アリクラウドのバイリアンでもAPIサービスを利用できます。4月29日のオープンソース開始以来、千問3大モデルは複数の国際的なランキングでオープンソースチャンピオンとして良い成績を収めています。