アントグループが全モーダル大規模モデル「Ming-Flash-Omni 2.0」をオープンソース化:マルチモーダル理解、画像編集および音声生成の大幅な向上
アントグループは全モーダル大規模モデル「Ming-Flash-Omni 2.0」をオープンソース化しました。視覚言語理解、音声生成、画像処理などの多くのベンチマークテストで優れた性能を発揮し、一部の指標ではGemini2.5Proを上回りました。このモデルは、あらゆる場面における音声統一生成機能を初めて実現し、同じ音轨内で音声、サウンド効果、音楽を生成できます。ユーザーは自然言語の指示を使って音色や速度などのパラメータを調整できます。