アリババクラウドは、世界初のネイティブなエンドツーエンドのマルチモーダルAIモデルであるQwen3-Omniを発表しました。このモデルはオープンソースとして公開されています。Qwen3-Omniはテキスト、画像、音声、ビデオなどのさまざまな入力タイプを処理できる能力を持ち、リアルタイムのストリーミング出力を実現しています。テキストや自然な音声を通じても、迅速な応答が可能です。

image.png

Qwen3-Omniモデルは、複数の分野において跨モーダルな優れた性能を示しています。初期にはテキスト中心の予トレーニングと混合多モーダルトレーニングを行い、強力な多モーダル能力を備えています。特に音声と動画のパフォーマンスに優れ、テキストと画像の効果も高い水準を維持しています。36の音声および動画のベンチマークテストにおいて、Qwen3-Omniは22項目で最新のリードを達成しており、特に自動音声認識や音声理解などの分野では、同業界のGemini2.5Proと同等の性能を発揮しています。

Qwen3-Omniは119種類のテキスト言語と19種類の音声入力言語をサポートし、さらに10種類の音声出力言語(英語、中国語、フランス語、ドイツ語など)も対応しています。この機能により、グローバルユーザーへのサービスがより一層向上します。その革新的なアーキテクチャ設計はMoE(エキスパート混合)システムに基づき、AuT予トレーニングを組み合わせることで、モデルが強力な汎用的表現能力を持つようになっています。また、マルチコードブック設計により、低遅延のリアルタイム音声および動画インタラクションを確保し、自然な会話の流れをサポートしています。

Qwen3-Omniとともに、アリババクラウドは、17種類のボイス選択をサポートするテキストから音声への変換モデルであるQwen3-TTSもリリースしました。このモデルは複数の評価ベンチマークで優れた性能を示し、多くの競合製品を上回っています。特に、音声の安定性とボイスの類似度において突出しています。

Qwen-Image-Edit-2509は、別の新規リリースされたツールであり、画像編集のためのマルチ画像サポートに焦点を当てており、編集の一貫性と効果を著しく向上させています。これは単一画像だけでなく、マルチ画像の連結編集も可能であり、より複雑な編集ニーズに対応できます。

  • GitHub:https://github.com/QwenLM/Qwen3-Omni

  • huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

ポイント:  

🌟 Qwen3-Omniは、世界初のネイティブなエンドツーエンドのマルチモーダルAIモデルで、テキスト、画像、音声、ビデオの統一処理をサポートしています。  

🌐 モデルは119種類のテキスト言語と19種類の音声入力をサポートし、グローバルユーザーの多言語ニーズに応えます。  

🖼️ 新たにリリースされたQwen-Image-Edit-2509は、マルチ画像編集をサポートし、編集の一貫性と効果を顕著に向上させています。