阿里巴巴、多モーダル推論モデルQVQ-72Bを発表!視覚・言語能力が向上し、複雑な問題も容易に解決
アリババは最近、QVQ-72Bという新しい多モーダル推論モデルを発表しました。このモデルはQwen2-VL-72Bをベースに構築されており、強力な言語能力と視覚能力を融合することで、より複雑な推論と分析タスクを処理できます。これは、アリババが多モーダルAI分野で新たなブレークスルーを達成したことを意味します。QVQ-72Bは、視覚推論、数学、科学の問題において顕著な性能向上を示しており、特に複数ステップの推論タスクにおいてその能力を発揮します。つまり、このモデルはテキスト情報だけでなく、画像情報も理解し、複数ステップを経て処理できるということです。