7月3日、フランスのAI研究機関であるKyutai Labsは、最新のテキストから音声への変換(TTS)技術「Kyutai TTS」をオープンソースとして発表しました。この技術は開発者やAI愛好家に効率的でリアルタイムな音声生成ソリューションを提供します。Kyutai TTSは低遅延と高精度な音声を特徴とし、完全なテキストがなくても音声生成を開始できるため、リアルタイムでのインタラクティブなシナリオに特に適しています。
Kyutai TTSは性能面でも優れています。単一のNVIDIA L40S GPUを使用すると、このモデルは同時に32件のリクエストを処理でき、遅延はわずか350ミリ秒です。また、システムは高品質な音声を生成するだけでなく、単語ごとの正確なタイムスタンプも出力できるため、リアルタイム字幕生成やインタラクティブなアプリケーションなど、例えばUnmuteプラットフォームの中断処理機能にも役立ちます。
言語サポートと品質評価において、Kyutai TTSは英語とフランス語をサポートしており、単語誤り率(WER)はそれぞれ2.82と3.29で、非常に高い正確性を示しています。スピーカーの類似度は英語で77.1%、フランス語で78.7%であり、音声が自然で元のサンプルに近いことを保証しています。このモデルは長文の処理にも対応し、従来のTTSの30秒制限を突破し、ニュースや本などの長編コンテンツの生成に適しています。
Kyutai TTSは遅延流モデリング(DSM)アーキテクチャを採用しており、Rustサーバーによる効率的なバッチ処理を実現しています。GitHubとHugging Faceでソースコードとモデルウェイトが公開されており、世界中の開発者が音声技術革新を推進する手助けになります。