Dans le domaine de la génération de voix par IA, la compétition s'intensifie. Récemment, deux étudiants sud-coréens ont créé un modèle de voix IA appelé Dia, dont les performances seraient comparables à celles de NotebookLM de Google. Malgré leur expérience limitée en IA, ils ont développé en seulement trois mois un outil de génération vocale en accès libre.

QQ_1745375733560.png

Dia a été entraîné grâce au projet TPU Research Cloud de Google, qui fournit aux chercheurs un accès gratuit aux puces TPU. Le modèle Dia possède 160 millions de paramètres et peut générer des dialogues à partir d'un script donné. Les utilisateurs peuvent personnaliser le ton de la voix et ajouter des indices non verbaux comme la toux ou les rires. Plus le nombre de paramètres est élevé, meilleures sont généralement les performances du modèle.

Dia est actuellement disponible sur les plateformes de développement IA Hugging Face et GitHub, et compatible avec la plupart des ordinateurs modernes disposant d'au moins 10 Go de VRAM. Sans description de style spécifique, Dia génère une voix aléatoire, mais le modèle permet également le clonage vocal.

Lors de tests préliminaires effectués par TechCrunch, Dia a montré de bonnes performances, générant des dialogues bidirectionnels sur divers sujets sans difficulté, avec une qualité vocale comparable à celle d'autres outils sur le marché. Il est à noter que la fonction de clonage vocal de Dia est l'une des plus simples et des plus faciles à utiliser testées par les journalistes.

Cependant, le manque de mesures de sécurité de Dia soulève des inquiétudes. Les utilisateurs pourraient facilement utiliser cet outil pour créer de fausses informations ou des enregistrements frauduleux. Bien que Nari, sur la page du projet Dia, appelle les utilisateurs à ne pas utiliser le modèle à des fins frauduleuses ou illégales, ils déclarent ne pas être responsables de la mauvaise utilisation du modèle. De plus, Nari n'a pas encore révélé la source des données utilisées pour entraîner Dia, ce qui signifie qu'il est possible qu'il ait utilisé du contenu protégé par des droits d'auteur, ce qui pose des problèmes juridiques complexes.

Toby Kim, fondateur de Nari Labs, a déclaré qu'ils prévoyaient de construire, sur la base de Dia, une plateforme de synthèse vocale dotée de « fonctionnalités sociales » et qu'ils espéraient prendre en charge davantage de langues à l'avenir. Nari prévoit également de publier un rapport technique sur Dia afin d'accroître son impact.

Projet : https://github.com/nari-labs/dia

Points clés :

🌟 Dia, un modèle de voix IA créé par deux étudiants, permet de générer des dialogues et prend en charge le clonage vocal.

🚀 Dia a été entraîné à l'aide de TPU Research Cloud de Google, possède 160 millions de paramètres et est compatible avec les PC modernes.

⚠️ Le modèle présente des risques pour la sécurité. Nari décline toute responsabilité en cas de mauvaise utilisation et n'a pas révélé la source des données d'entraînement.