GPT-4o 級別!VITA-1.5:實時視覺與語音交互, 1.5秒互動延遲
近日,VITA-MLLM 團隊宣佈推出 VITA-1.5,這是該團隊在 VITA-1.0基礎上推出的升級版本,致力於提升多模態交互的實時性與準確性。VITA-1.5不僅支持英語和中文,還在多項性能指標上實現了顯著提升,爲用戶提供了更流暢的交互體驗。在 VITA-1.5中,互動延遲大幅降低,從原來的4秒縮短至僅1.5秒,用戶在進行語音交互時幾乎感受不到延遲。此外,該版本在多模態性能方面也有顯著提高,經過評估,VITA-1.5在 MME、MMBench 和 MathVista 等多個基準測試中的平均性能從59.8提升至70.8,展現了出色的能力。VITA