Recentemente, a equipe KittenML lançou seu novo modelo de texto para fala (TTS) de código aberto - Kitten TTS, na plataforma Hugging Face. O objetivo deste modelo é realizar síntese de voz de alta qualidade, mantendo-se leve e eficiente, adequando-se à implantação em diversos dispositivos. O Kitten TTS possui apenas 15 milhões de parâmetros, sendo seu tamanho menor que 25 MB, o que o torna especialmente adequado para ambientes com recursos limitados.
O Kitten TTS suporta execução sem GPU, o que significa que os usuários podem realizar a síntese de voz em dispositivos comuns de CPU, reduzindo significativamente a barreira de uso. O modelo também oferece várias opções de voz de alta qualidade, garantindo que as vozes geradas sejam mais naturais e fluidas, adequadas para vários cenários de aplicação. Além disso, a velocidade de inferência do Kitten TTS foi otimizada, permitindo a síntese de voz em tempo real, atendendo às necessidades dos usuários quanto à velocidade.
Para ajudar os usuários a começar rapidamente, a KittenML também fornece um guia simples de instalação e uso. Os usuários precisam apenas instalar as bibliotecas correspondentes por meio do comando pip e chamar o modelo com código simples, para gerar áudio de alta qualidade. Por exemplo, ao inserir o texto "Este modelo TTS de alta qualidade pode ser executado sem GPU", o modelo produzirá o arquivo de áudio correspondente, facilitando o armazenamento e o uso pelos usuários.
O Kitten TTS está atualmente em fase de visualização para desenvolvedores. No futuro, serão lançados pesos de modelo totalmente treinados, um SDK móvel e uma versão web, expandindo ainda mais o alcance de aplicações. A KittenML espera, por meio deste modelo, promover a popularização da tecnologia de síntese de voz por texto, ajudando mais desenvolvedores e empresas a implementar facilmente funções de síntese de voz em seus projetos.
O lançamento do Kitten TTS marca mais um passo na aplicação mais ampla da tecnologia de síntese de voz por IA. Esperamos que este modelo traga conveniência e experiências inovadoras para mais usuários no futuro.
Destaque:
🐱 O Kitten TTS é um modelo de texto para fala (TTS) de código aberto leve, com tamanho menor que 25 MB, adequado para diversos dispositivos.
⚡ O modelo suporta execução sem GPU, garantindo que os usuários possam realizar a síntese de voz de alta qualidade em CPUs comuns.
🚀 O Kitten TTS já fornece um guia simples de instalação e uso, permitindo que os usuários comecem rapidamente e gerem áudios.