中国語ビジュアル音声オープンソースモデルVITA-1.5リリース GPT-4に匹敵する高度な音声・視覚能力を備える
近年、マルチモーダル大規模言語モデル(MLLM)は目覚ましい進歩を遂げ、特に視覚とテキストモーダルの統合において顕著な成果を上げています。しかし、ヒューマンコンピュータインタラクションの普及に伴い、音声モーダルの重要性もますます高まっており、特にマルチモーダル対話システムにおいては不可欠となっています。音声は情報伝達の重要な媒体であるだけでなく、インタラクションの自然性と利便性を大幅に向上させる役割も担っています。しかし、視覚データと音声データは本質的に異なるため、これらをMLLMに統合することは容易ではありません。例えば、視覚データは空間情報を伝達する一方、音声データは時間軸上の情報を伝達します。