英伟达发布新视觉语言模型NVILA,击败GPT-4o Mini和Llama 3.2
近日,NVIDIA 推出了新一代开放视觉语言模型 ——NVILA。该旨在优化准确性和效率,凭借出色的性能,成为视觉 AI 领域的佼者。根据 NVIDIA 的介绍,NVILA 在训练成本上降低了4.5倍微调所需内存减少了3.4倍,并且在预填充和解码的延迟上几乎降低了2倍。这些数据是与另一种大型视觉模型 LLaVa OneVision 进行比较得出的。在视频基准测试中,NVILA 的表现超过了 GPT4o Mini,并且在与 GPT4o、Sonnet3.5和 Gemini1.5Pro 的比较中也表现出色。此外,NVILA 还在与 Llama3.2的对比中取得了微弱胜利。尽管如此,NVIDIA 表