NVIDIAはOmniVinciの全モード理解モデルを発表し、複数のベンチマークテストでトップモデルより19.05ポイント高い結果を出しました。このモデルは0.2兆のトレーニングトークンを使用しており、データ効率が競合の6倍に達しています。視覚、音声、テキストの統一された理解を実現し、機械のマルチモード認知能力の発展を促進することを目的としています。
NVIDIAは全モード理解モデルの「OmniVinci」をリリースしました。ベンチマークテストではトップモデルよりも19.05ポイント高く、トレーニングデータの6分の1で優れたパフォーマンスを実現しました。このモデルは、AIシステムが視覚、音声、テキストを同時に理解し、人間の多感覚的な世界の認識を模倣することを目的としています。
nvidia
OmniVinciはNVIDIAが開発した全モーダリティ理解大規模言語モデルで、視覚、テキスト、オーディオ処理および音声インタラクション機能を備え、マルチモーダル推論と理解をサポートします。