アリババの通義Qwenチームが新モデル「Qwen3-Omni-Flash-2025-12-01」をリリース。テキスト、画像、音声、動画を統合処理し、リアルタイム応答と自然音声出力を実現。音声・動画の理解力と対話体験を強化。....
アリババが新世代全モーダル大規模モデル「Qwen3-Omni-Flash-2025-12-01」を発表。テキスト、画像、音声、動画のシームレスな入力に対応し、高品質なテキストと自然な音声をリアルタイムで生成可能。音声の自然さは人間に近く、119言語のテキスト対話をサポート。....
9月28日、Hugging Faceが新モデルランキングを発表。阿里通義の7モデルが世界トップ10を独占。全モーダルモデルQwen3-Omniが首位、音声・動画処理で32のSOTAを達成。テキスト・画像・音声・動画処理が可能な先進モデル。....
アリババはオーディオ・ビデオ・テキストなどに対応する多モーダル事前学習モデル「Qwen3-Omni」を発表。36のベンチマークテストで22項目がSOTA、32項目がオープンソース最良の性能を達成し、AI技術の大きな進展を示した。....
Alibaba
$8
入力トークン/百万
$240
出力トークン/百万
52
コンテキスト長
$3.9
$15.2
64
$15.8
$12.7
Akicou
Qwen3-Omni-30B-A3B-ThinkingモデルのQ4_K_S量子化GGUFバージョンで、テキスト、視覚、オーディオのマルチモーダル処理をサポートし、llama.cppを通じて高効率な推論を実現します。このバージョンは品質を保証しつつ、ファイルサイズを大幅に削減し、推論速度を向上させます。
abnormalmapstudio
これはQwen3-Omni-30B-A3B-ThinkingモデルのMLX形式への変換バージョンで、mlx-lm 0.28.1を使用して変換され、Apple Siliconデバイスでの効率的な実行をサポートします。
これはQwen3-Omni-30B-A3B-Instructモデルを変換したMLX形式のバージョンで、mlx-lm 0.28.1ツールを使用して変換され、Apple Silicon向けに最適化されており、効率的なテキスト生成タスクをサポートします。
cpatonn
Qwen3-Omni-30B-A3B-Captionerは、Qwen3-Omni-30B-A3B-Instructをベースにファインチューニングされた細粒度オーディオ分析モデルで、任意のオーディオ入力に対して詳細で低幻覚の記述を生成し、複雑で多様なオーディオシーンで優れた性能を発揮します。
vito95311
これはQwen3-Omni 31.7Bパラメータモデルの専用量子化バージョンで、先進的なINT8+FP16混合精度量子化技術を採用し、メモリ使用量を50%以上削減し、スマートなGPU/CPU混合推論をサポートし、大型マルチモーダルモデルをコンシューマーレベルのハードウェアで効率的に動作させることができます。