Hume AIがオープンソースのTADAをリリース:5倍速のゼロフイクションTTSで700秒間のオーディオをスマホで動作
Hume AIがオープンソースでリリースしたTADA音声生成モデルは、テキストと音声の二重対応アーキテクチャを採用し、TTSシステムの効率と信頼性を大幅に向上させました。テキストトークンと音声表現を1:1で厳密に同期することで、従来のLLMベースのTTSにおけるコンテンツの幻覚問題を効果的に解決しました。数千個のサンプルテストにより、モデルの性能が優れていることが確認されました。