近日,通義大模型發佈CoGenAV,以音畫同步理念創新語音識別技術,有效解決語音識別中噪聲干擾的難題。 傳統語音識別在噪聲環境下表現欠佳,CoGenAV則另闢蹊徑,通過學習audio-visual-text之間的時序對齊關係,構建出更魯棒、更通用的語音表徵框架,系統性提升語音識別任務(VSR/AVSR)、語音重建任務(AVSS/AVSE)以及語音同步任務(ASD)等多個Speech-Centric任務的表現力。