OuteTTS-0.1-350Mは、外部アダプタや複雑なアーキテクチャを必要としない、純粋な言語モデルに基づくテキスト音声合成技術です。精巧に設計されたプロンプトとオーディオトークンを用いて、高品質の音声合成を実現します。LLaMaアーキテクチャをベースとし、3億5000万パラメータを使用することで、言語モデルを直接音声合成に用いる可能性を示しています。音声処理は、WavTokenizerによるオーディオトークナイゼーション、CTC強制アライメントによる単語とオーディオトークンの正確なマッピング、そして特定のフォーマットに従った構造化プロンプトの作成という3つのステップで行われます。OuteTTSの主な利点としては、純粋な言語モデリング手法、音声クローン機能、llama.cppおよびGGUF形式との互換性などが挙げられます。