Nova conquista no campo da síntese de voz de código aberto! O modelo TTS recém-lançado, Muyan-TTS, foi projetado especialmente para cenários como podcasts, livros falados e vídeos longos, possuindo capacidade de síntese de voz sem amostras prévias, geração rápida e leitura com alta coerência, sendo uma das melhores opções atuais para a produção em massa de áudios longos.

QQ20250513-085410.png

O Muyan-TTS foi pré-treinado com mais de 100 mil horas de dados de podcasts e pode gerar 1 segundo de áudio de alta qualidade em apenas 0,33 segundos. Ele suporta a leitura contínua de minutos de texto de forma natural e fluída. Além disso, é possível personalizar o tom do locutor e clonar qualquer voz, permitindo a geração de conteúdo com tons e ritmos personalizados.

O modelo está disponível na Hugging Face e suporta implantação offline, tornando fácil para desenvolvedores realizarem inferências locais, adaptando-se a uma variedade de cenários: geração de podcasts, criação de livros falados, dublagem de vídeos em inglês, leitura por personagens virtuais e transmissão de informações por assistentes inteligentes, aumentando significativamente a eficiência na produção de conteúdo.

Desenvolvedores interessados podem acessar a Hugging Face para obter os pesos do modelo e códigos de exemplo, começando sua jornada de criação de voz com IA.

Repositório GitHub: https://github.com/MYZY-AI/Muyan-TTS

Endereço do modelo HF: https://huggingface.co/MYZY-AI/Muyan-TTS