NVIDIA、新ビジョン言語モデルNVILAを発表、GPT-4o MiniやLlama 3.2を凌駕
先日、NVIDIAは次世代オープンソースのビジョン言語モデルNVILAを発表しました。正確性と効率性を最適化することを目指し、その優れた性能により、ビジョンAI分野のリーダーとなっています。NVIDIAによると、NVILAは、訓練コストを4.5倍削減、ファインチューニングに必要なメモリを3.4倍削減、プリフィリングとデコーディングの遅延をほぼ2倍削減したとのことです。これらのデータは、別の大きなビジョンモデルであるLLaVa OneVisionとの比較に基づいています。ビデオベンチマークにおいて…