英伟达发布OmniVinci全模态理解模型,在多项基准测试中领先顶尖模型19.05分。该模型仅用0.2万亿训练Token,数据效率达竞争对手六倍,旨在实现视觉、音频和文本的统一理解,推动机器多模态认知能力发展。
英伟达发布全模态理解模型OmniVinci,在基准测试中比顶尖模型高出19.05分,仅用1/6训练数据就实现卓越性能。该模型旨在让AI系统同时理解视觉、音频和文本,模拟人类多感官感知世界。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。