GPT-4o 级别!VITA-1.5:实时视觉与语音交互, 1.5秒互动延迟
近日,VITA-MLLM 团队宣布推出 VITA-1.5,这是该团队在 VITA-1.0基础上推出的升级版本,致力于提升多模态交互的实时性与准确性。VITA-1.5不仅支持英语和中文,还在多项性能指标上实现了显著提升,为用户提供了更流畅的交互体验。在 VITA-1.5中,互动延迟大幅降低,从原来的4秒缩短至仅1.5秒,用户在进行语音交互时几乎感受不到延迟。此外,该版本在多模态性能方面也有显著提高,经过评估,VITA-1.5在 MME、MMBench 和 MathVista 等多个基准测试中的平均性能从59.8提升至70.8,展现了出色的能力。VITA