最近、Qwen-TTSと呼ばれる音声合成モデルに新たな進展があり、最新バージョンがQwen APIを通じて更新され、ユーザーにより豊かな音声合成体験を提供しています。

今回のアップデートでは、北京語、上海語、四川語の3種類の中国語方言へのサポートが追加されました。これにより、その応用範囲がさらに広がりました。このモデルは300万時間以上の大規模な語料庫に基づいて訓練されており、合成効果は人間レベルの自然さと表現力に達しています。Qwen-TTSは正確な音声合成だけでなく、入力テキストに応じてリズム、テンポ、感情の変化を自動的に調整することができ、生成された音声はより現実的で表現力豊かになります。

通義 Qwen (5)

現在、Qwen-TTSは7種類の中英両語の音色をサポートしており、CherryやEthanなどの標準的な音色に加え、方言専用のDylan(北京語)、Jada(上海語)、Sunny(四川語)などの音色も含まれます。ユーザーは自分のニーズに合わせて適切な音色を選択して音声合成を行うことができます。

実際の応用において、Qwen-TTSは優れた性能を示しています。日常生活のシチュエーションを説明したり、複雑な感情を表現したりする場合でも、自然で滑らかな音声を生成できます。例えば、北京語のDylanという音色を使って子供の遊びに関するテキストを合成すると、音声には子供らしい楽しさと活気があります。一方、上海語のJadaという音色を使って生活の小さな出来事に関する会話を合成すると、地元の上海の風情が感じられます。

Qwen-TTSの開発チームは、今後もモデルの性能を最適化し、さらに多くの言語や音声スタイルをリリースする予定であると述べました。これは、ユーザーが日々多様化するニーズに対応できるようにするためです。また、開発者にとって使いやすいAPIインターフェースも提供しており、Qwen-TTSを自アプリケーションに統合することが容易です。

百煉:https://help.aliyun.com/zh/model-studio/qwen-tts