最好的Audio-Visual AI工具模型_精選Audio-Visual資訊

AI資訊

通義推出CoGenAV多模態語音表徵模型可實現音畫同步感知

近日，通義大模型發佈CoGenAV，以音畫同步理念創新語音識別技術，有效解決語音識別中噪聲干擾的難題。傳統語音識別在噪聲環境下表現欠佳，CoGenAV則另闢蹊徑，通過學習audio-visual-text之間的時序對齊關係，構建出更魯棒、更通用的語音表徵框架，系統性提升語音識別任務（VSR/AVSR）、語音重建任務(AVSS/AVSE)以及語音同步任務(ASD)等多個Speech-Centric任務的表現力。

14.9k 2 天前

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商務合作網站地圖

AI資訊

通義推出CoGenAV多模態語音表徵模型 可實現音畫同步感知

通義推出CoGenAV多模態語音表徵模型可實現音畫同步感知