アリババは最近、最新のアーキテクチャモデルであるQwen3-Next-80B-A3Bをオープンソース化しました。これは、人工知能生成コンテンツ(AIGC)において重要な進展を示しています。このモデルは、混合アテンションメカニズム、高スパース性エキスパートモデル(MoE)、およびトレーニング方法に革新をもたらし、顕著な性能向上を示しています。
Qwen3-Nextの総パラメータ数は800億ですが、推論時に300億のパラメータのみがアクティブ化されるため、前世代製品であるQwen3-32Bと比較してトレーニングコストが90%も減少しました。さらに、推論効率は10倍向上し、特に32K以上の超長テキストを処理する場合に顕著です。これにより、Qwen3-Nextは命令の実行や長文の文脈処理において、アリババのエースモデルであるQwen3-235Bと同等、あるいはグーグルの最新モデルであるGemini-2.5-Flash思考モデルを上回る性能を発揮します。
このモデルの核心的なイノベーションは、混合エキスパートアーキテクチャで、ゲート付きDeltaNetとゲート付きアテンションの組み合わせです。この設計により、Qwen3-Nextは従来のアテンションメカニズムが長文処理において持つ不足を克服し、速度を保ちながら文脈学習能力を向上させました。トレーニング中に高スパース性MoE構造を採用することで、パフォーマンスを損なうことなくリソースの最大化を実現しています。
また、Qwen3-Nextはマルチトークン予測メカニズムを導入し、ランダム解釈におけるモデルのパフォーマンスを向上させています。プレトレーニング段階では、Qwen3-32Bと比較して効率が大幅に向上し、トレーニングコストはその9.3%にとどまりますが、パフォーマンスはさらに優れています。推論速度に関しては、Qwen3-Nextは長文を処理する際、吞吐量がQwen3-32Bに対して7倍向上し、より長い文脈でも10倍の速度優位性を維持しています。
アリババのこの新しいモデルは技術的に突破を遂げただけでなく、開発者や研究者を中心に広範な注目と評価を受けています。技術革新や市場競争力の面で、Qwen3-Nextはアリババが人工知能分野でさらにリードしていることを示しています。
オンライン体験:https://chat.qwen.ai/
オープンソースアドレス:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
ポイント:
🌟 Qwen3-Next-80B-A3Bモデルは総パラメータ800億で、トレーニングコストが90%低下し、推論効率が10倍向上しています。
🔍 新モデルは混合エキスパートアーキテクチャとマルチトークン予測メカニズムを採用しており、文脈処理能力が大幅に強化されています。
🚀 推論速度において、Qwen3-Nextは超長テキスト環境で優れた性能を発揮し、前世代モデルと比較して吞吐量が7〜10倍向上しています。