英偉達發佈新視覺語言模型NVILA,擊敗GPT-4o Mini和Llama 3.2
近日,NVIDIA 推出了新一代開放視覺語言模型 ——NVILA。該旨在優化準確性和效率,憑藉出色的性能,成爲視覺 AI 領域的佼者。根據 NVIDIA 的介紹,NVILA 在訓練成本上降低了4.5倍微調所需內存減少了3.4倍,並且在預填充和解碼的延遲上幾乎降低了2倍。這些數據是與另一種大型視覺模型 LLaVa OneVision 進行比較得出的。在視頻基準測試中,NVILA 的表現超過了 GPT4o Mini,並且在與 GPT4o、Sonnet3.5和 Gemini1.5Pro 的比較中也表現出色。此外,NVILA 還在與 Llama3.2的對比中取得了微弱勝利。儘管如此,NVIDIA 表