最近、通義千問の公式がQwen3-Embeddingシリーズのモデルを正式に発表しました。これはQwenモデルファミリーの新しいメンバーであり、テキスト表現、検索、並べ替えタスク向けに設計されています。Qwen3-EmbeddingシリーズはQwen3ベースモデルに基づいて訓練されており、多言語テキスト理解能力におけるQwen3の著しい優位性を十分に引き継いでいます。

このシリーズのモデルは複数のベンチマークテストで優れたパフォーマンスを示しており、特にテキスト表現と並べ替えタスクにおいて卓越した性能を発揮しています。テストではMTEB(英語版v2、中国語版v1、マルチリンガル版、コード版)の検索データセットを使用し、並べ替え結果はQwen3-Embedding-0.6Bのtop-100ベクトルリコール結果に基づいています。注目すべきは、8Bパラメータ規模のEmbeddingモデルがMTEBマルチリンガルランキングリストで第1位となり、スコアが70.58に達し、多くの商用APIサービスを上回る性能を示したことです。

微信截图_20250606082710.png

Qwen3-Embeddingシリーズは、0.6Bから8Bパラメータスケールまでの3つのモデル構成を提供しており、さまざまなシナリオでのパフォーマンスと効率要件に対応できます。開発者は柔軟に表現と並べ替えモジュールを組み合わせて機能を拡張できます。また、モデルは表現次元のカスタマイズやインストラクション適応最適化をサポートしており、ユーザーは実際の要件に基づいて表現次元を調整し、インストラクションテンプレートを独自にカスタマイズすることで、特定のタスク、言語、またはシナリオでのパフォーマンスを向上させることができます。

多言語サポートに関して、Qwen3-Embeddingシリーズは100以上の言語をサポートし、主要な自然言語や多数のプログラミング言語を網羅しており、強力なマルチリンガル、クロスリンガル、コード検索能力を持っています。このシリーズのモデルは、それぞれEmbeddingモデルとRerankerモデル用に双方向構造と単一塔構造の設計を採用しており、LoRA微調整を通じてベースモデルのテキスト理解能力を最大限に保持し継承しています。

訓練過程において、Qwen3-Embeddingシリーズは複数段階の訓練方式を採用し、具体的なアプリケーションシナリオに応じて深く最適化されました。Embeddingモデルは、大規模な弱監視データのコンペアティブラーニング事前学習、高品質なラベル付きデータの監督学習、およびモデル統合戦略の3段階訓練アーキテクチャを使用し、モデルの汎化能力とタスク適応性を効果的にバランスさせています。一方、Rerankerモデルは高品質なラベル付きデータを使用して直接監督学習を行い、学習効率を向上させています。

今回公開されたQwen3-Embeddingシリーズのモデルは、Hugging Face、ModelScope、GitHubプラットフォームでオープンソース化され、ユーザーは阿里雲のバレンティーンプラットフォームで提供される最新のテキストベクトルモデルサービスも直接利用可能です。公式はこれについて「新たな出発点」と述べており、Qwenベースモデルの継続的な最適化を通じて、テキスト表現と並べ替えモデルの学習効率をさらに向上させ、マルチモーダル表現システムを拡張し、クロスモーダルセマンティック理解能力を構築する計画です。

ModelScope:

  • https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48

  • https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f

Hugging Face:

  • https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f

  • https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea

GitHub:

  • https://github.com/QwenLM/Qwen3-Embedding