O OuteTTS-0.1-350M é uma tecnologia de síntese de texto para fala baseada em modelo de linguagem pura. Ele não requer adaptadores externos ou arquiteturas complexas, alcançando síntese de fala de alta qualidade através de prompts cuidadosamente projetados e marcação de áudio. O modelo é baseado na arquitetura LLaMa, utiliza 350M de parâmetros e demonstra o potencial do uso direto de modelos de linguagem para síntese de fala. Ele processa o áudio em três etapas: tokenização de áudio usando WavTokenizer, alinhamento forçado CTC para criar um mapeamento preciso de palavras para tokens de áudio e criação de prompts estruturados seguindo um formato específico. As principais vantagens do OuteTTS incluem o método de modelagem de linguagem pura, capacidade de clonagem de voz e compatibilidade com os formatos llama.cpp e GGUF.