通義ラボは、Fun-CosyVoice3.5およびFun-AudioGen-VDの2つの音声大規模モデルを発表しました。'FreeStyle'の自然言語指令により、1文で自由に音声を生成する深層的なインタラクティブ性を実現しています。Fun-CosyVoice3.5にはタイ語、インドネシア語などの4つの言語が追加され、多言語での再現力と細分化された表現能力が向上しています。
アリババ通義ラボは、Fun-CosyVoice3.5とFun-AudioGen-VDの2つの音声生成モデルをリリースしました。自由な「FreeStyle」コマンドをサポートしており、ユーザーは自然言語による記述で音声スタイルを制御したり、オーディオシーンを構築できます。Fun-CosyVoice3.5は多言語の再現と細やかな制御に特化しており、CosyVoiceのアップグレード版です。
アリババの通義大規模モデル「百聆」音声モデルが大幅アップデート。わずか3秒の音声で9言語・18方言にシームレス切替可能。標準中国語、広東語、日本語、英語などをサポートし、喜びや怒りなど多様な感情も再現。Fun-CosyVoice3モデルは特に改善が顕著で、初回応答遅延50%削減、日中混合話法の認識精度大幅向上。....