通義實驗室發佈Fun-CosyVoice3.5和Fun-AudioGen-VD兩款語音大模型,支持“FreeStyle”自然語言指令生成,實現“一句話自由生成語音”的深度交互。Fun-CosyVoice3.5新增泰語、印尼語等4個語種支持,提升多語種復刻與精細化表達能力。
阿里通義實驗室推出Fun-CosyVoice3.5和Fun-AudioGen-VD兩款語音生成模型,支持“FreeStyle”指令,用戶通過自然語言描述即可控制聲音風格或構建音頻場景。Fun-CosyVoice3.5專注於多語種復刻與精細化控制,是CosyVoice的升級版。
阿里巴巴通義大模型開源“百聆”系列語音模型重大升級。新模型僅需3秒錄音即可無縫切換9種語言和18種方言,支持普通話、粵語、日語、英語等,並能模擬開心、憤怒等多種情感。其中Fun-CosyVoice3模型改進顯著,首包延遲降低50%,中英混說準確率大幅提升。