Recentemente, o laboratório francês de inteligência artificial Kyutai anunciou que seu novo modelo de texto para fala, Kyutai TTS, foi oficialmente aberto ao público, oferecendo uma solução de síntese de voz de alto desempenho e baixa latência para desenvolvedores e pesquisadores em todo o mundo. Essa inovação não apenas impulsionou o desenvolvimento da tecnologia de IA de código aberto, mas também abriu novas possibilidades para aplicações de interação de voz multilíngue. O AIbase fornece uma análise exclusiva sobre os destaques dessa tecnologia e seu potencial impacto.

 Latência extremamente baixa, nova experiência de interação em tempo real

O Kyutai TTS tornou-se o foco da indústria com seu desempenho notável. O modelo suporta transmissão de texto em fluxo e pode gerar áudio natural e fluido em um curto período de tempo. Graças ao poderoso GPU L40S, o Kyutai TTS é capaz de processar até 32 solicitações simultaneamente, com uma latência de apenas 350 milissegundos, fornecendo uma base técnica sólida para a interação de voz em tempo real. Seja em assistentes virtuais, geração de legendas em tempo real ou plataformas de educação online, essa característica de latência extremamente baixa melhorará significativamente a experiência do usuário.

 Saída de voz de alta precisão, detalhes exatos

O Kyutai TTS não se destaca apenas pela velocidade, mas também pela precisão impressionante na geração de voz. O modelo possui taxas de erro de palavra (WER) de 2,82 e 3,29, respectivamente, para inglês e francês, demonstrando uma alta precisão na voz. Além disso, sua similaridade de falante atinge 77,1% em inglês e 78,7% em francês, produzindo áudios naturais e fluentes, além de reproduzir com precisão as características da voz do falante alvo. Mais surpreendentemente, o Kyutai TTS pode gerar marcos temporais exatos das palavras, oferecendo suporte poderoso para cenários que exigem sincronização precisa, como legendas ou dublagem.

image.png

Endereço do código aberto: https://kyutai.org/next/tts

 Suporte a múltiplos idiomas, ampla aplicabilidade

Atualmente, o Kyutai TTS suporta dois idiomas, inglês e francês, e é capaz de processar a geração de áudio de artigos longos. Isso o torna adequado para uma ampla gama de aplicações nas áreas educacional, de mídia e navegação por voz. Por exemplo, na área educacional, o Kyutai TTS pode oferecer serviços de leitura de textos de alta qualidade para pessoas cegas; na indústria de mídia, sua baixa latência e voz de alta fidelidade podem ser usadas para gerar rapidamente conteúdos de podcasts ou livros em áudio. No futuro, o laboratório Kyutai planeja expandir ainda mais o suporte a idiomas por meio de contribuições da comunidade, aumentando assim a capacidade de aplicação global do modelo.

 Código aberto empodera, inovação impulsionada pela comunidade

Como um modelo totalmente aberto ao público, o Kyutai TTS foi lançado sob a licença CC-BY-4.0, permitindo que desenvolvedores utilizem, modifiquem e distribuam livremente. Essa estratégia aberta não apenas reduziu a barreira de uso da tecnologia, mas também forneceu aos usuários da comunidade de IA recursos valiosos. O laboratório Kyutai convida os usuários da comunidade a doarem dados de voz para ajudar no aumento de estilos de voz e suporte a idiomas do modelo, promovendo juntos o avanço da tecnologia de síntese de voz.

 Visão do futuro: o próximo marco da tecnologia de voz da IA