Une startup composée de deux personnes, Nari Labs, a lancé Dia, un modèle texte-à-parole (TTS) de 1,6 milliard de paramètres conçu pour générer des conversations naturelles directement à partir d'invites textuelles. Toby Kim, co-fondateur, affirme que Dia surpasse les produits propriétaires de concurrents tels qu'ElevenLabs, ainsi que la fonctionnalité de génération de podcast NotebookLM de Google, et pourrait même menacer le récent gpt-4o-mini-tts d'OpenAI.

Sur le réseau social X, Kim a déclaré que Dia rivalise en qualité avec la fonctionnalité de podcast de NotebookLM et surpasse les modèles ouverts d'ElevenLabs Studio et de Sesame. Il a révélé que le modèle a été construit « sans financement », soulignant qu'ils n'étaient pas initialement des experts en intelligence artificielle, mais que le projet a été lancé par passion pour la fonctionnalité de podcast de NotebookLM. Ils ont testé toutes les API TTS du marché, mais aucune n'était suffisamment naturelle. Kim a remercié Google de leur avoir permis d'utiliser ses unités de traitement tensoriel (TPU) pour entraîner Dia.

Actuellement, le code et les poids de Dia sont open source sur Hugging Face et Github, permettant aux utilisateurs de les télécharger et de les déployer localement. Les utilisateurs individuels peuvent également l'expérimenter en ligne sur Hugging Face Space.

Contrôle vocal

Contrôle avancé et fonctionnalités plus personnalisables

Dia prend en charge des fonctionnalités détaillées, telles que le ton émotionnel, les marqueurs de locuteur et les indices audio non verbaux comme (rire), (toux), (raclage de gorge), le tout réalisé uniquement avec du texte brut. Les exemples de Nari Labs montrent que Dia interprète correctement ces balises, contrairement à d'autres modèles qui ne les prennent pas en charge de manière fiable. Le modèle ne prend actuellement en charge que l'anglais, et la voix varie à chaque exécution, sauf si l'utilisateur modifie la graine de génération ou fournit une invite audio pour le clonage vocal.

Nari Labs fournit sur son site web des exemples comparatifs de Dia avec ElevenLabs Studio et Sesame CSM-1B, démontrant la supériorité de Dia dans la gestion du rythme naturel, des expressions non verbales, des dialogues multi-émotionnels, des contenus rythmiques complexes et la continuation du style vocal grâce à des invites audio. Nari Labs précise que la démonstration de Sesame a peut-être utilisé sa version interne à paramètres plus importants.

Accès au modèle et spécifications techniques

Les développeurs peuvent obtenir Dia depuis le dépôt GitHub de Nari Labs et la page du modèle Hugging Face. Le modèle s'exécute sur PyTorch2.0+ et CUDA12.6, nécessitant environ 10 Go de mémoire vidéo. Nari Labs prévoit de proposer à l'avenir une prise en charge du processeur et une version quantifiée.

Dia est distribué sous la licence Apache2.0 entièrement open source, autorisant un usage commercial. Nari Labs souligne l'interdiction de son utilisation à des fins immorales et encourage une expérimentation responsable. Le développement du projet a bénéficié du soutien de Google TPU Research Cloud, du programme ZeroGPU de Hugging Face et d'autres recherches connexes. Nari Labs ne compte que deux ingénieurs, mais invite activement la communauté à contribuer.