阿里巴巴推出革命性語音識別模型FunAudio-ASR,降噪效果驚人
近日,阿里巴巴通義實驗室正式發佈了其最新的端到端語音識別大模型 ——FunAudio-ASR。這個模型的最大亮點在於它的創新 “Context 模塊”,讓高噪聲環境下的語音識別準確率得到了顯著提升,幻覺率從78.5% 大幅降低至10.7%,降幅近乎70%。這一技術突破爲語音識別行業樹立了新的標杆,尤其適用於嘈雜的場合,如會議、公共場所等。FunAudio-ASR 模型在訓練過程中使用了數千萬小時的音頻數據,並將大語言模型的語義理解能力融入其中,使其在遠場、嘈雜和多說話人等複雜條件下的表現,已經超