Lancement de Dia, un modèle TTS open source révolutionnaire : prise en charge des émotions, des indices non verbaux et une qualité comparable à une conversation humaine

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Apr 23, 2025

Une startup composée de deux personnes, Nari Labs, a lancé Dia, un modèle texte-à-parole (TTS) de 1,6 milliard de paramètres conçu pour générer des conversations naturelles directement à partir d'invites textuelles. Toby Kim, co-fondateur, affirme que Dia surpasse les produits propriétaires de concurrents tels qu'ElevenLabs, ainsi que la fonctionnalité de génération de podcast NotebookLM de Google, et pourrait même menacer le récent gpt-4o-mini-tts d'OpenAI.

Sur le réseau social X, Kim a déclaré que Dia rivalise en qualité avec la fonctionnalité de podcast de NotebookLM et surpasse les modèles ouverts d'ElevenLabs Studio et de Sesame. Il a révélé que le modèle a été construit « sans financement », soulignant qu'ils n'étaient pas initialement des experts en intelligence artificielle, mais que le projet a été lancé par passion pour la fonctionnalité de podcast de NotebookLM. Ils ont testé toutes les API TTS du marché, mais aucune n'était suffisamment naturelle. Kim a remercié Google de leur avoir permis d'utiliser ses unités de traitement tensoriel (TPU) pour entraîner Dia.

Actuellement, le code et les poids de Dia sont open source sur Hugging Face et Github, permettant aux utilisateurs de les télécharger et de les déployer localement. Les utilisateurs individuels peuvent également l'expérimenter en ligne sur Hugging Face Space.

Contrôle vocal

Contrôle avancé et fonctionnalités plus personnalisables

Dia prend en charge des fonctionnalités détaillées, telles que le ton émotionnel, les marqueurs de locuteur et les indices audio non verbaux comme (rire), (toux), (raclage de gorge), le tout réalisé uniquement avec du texte brut. Les exemples de Nari Labs montrent que Dia interprète correctement ces balises, contrairement à d'autres modèles qui ne les prennent pas en charge de manière fiable. Le modèle ne prend actuellement en charge que l'anglais, et la voix varie à chaque exécution, sauf si l'utilisateur modifie la graine de génération ou fournit une invite audio pour le clonage vocal.

Nari Labs fournit sur son site web des exemples comparatifs de Dia avec ElevenLabs Studio et Sesame CSM-1B, démontrant la supériorité de Dia dans la gestion du rythme naturel, des expressions non verbales, des dialogues multi-émotionnels, des contenus rythmiques complexes et la continuation du style vocal grâce à des invites audio. Nari Labs précise que la démonstration de Sesame a peut-être utilisé sa version interne à paramètres plus importants.

Accès au modèle et spécifications techniques

Les développeurs peuvent obtenir Dia depuis le dépôt GitHub de Nari Labs et la page du modèle Hugging Face. Le modèle s'exécute sur PyTorch2.0+ et CUDA12.6, nécessitant environ 10 Go de mémoire vidéo. Nari Labs prévoit de proposer à l'avenir une prise en charge du processeur et une version quantifiée.

Dia est distribué sous la licence Apache2.0 entièrement open source, autorisant un usage commercial. Nari Labs souligne l'interdiction de son utilisation à des fins immorales et encourage une expérimentation responsable. Le développement du projet a bénéficié du soutien de Google TPU Research Cloud, du programme ZeroGPU de Hugging Face et d'autres recherches connexes. Nari Labs ne compte que deux ingénieurs, mais invite activement la communauté à contribuer.

Modèle de synthèse vocale (TTS)Dia NariLabs 1,6 milliard de paramètres

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

L'IA Nano de 360 est rénovée et devient un système de myriade d'intelligences multiples au niveau L4

Beijing, le 2 août 2025 —— Le groupe 360 a annoncé hier que son IA Nano a subi une restructuration de marque et a été officiellement mise à niveau en tant que premier système de myriade d'intelligences multiples au niveau L4 au monde, marquant ainsi l'arrivée de l'ère des livraisons de résultats en matière d'intelligence artificielle allant au-delà de la « guerre individuelle » pour entrer dans l'ère de la coopération de groupe. Ce système permet, grâce à un cadre original de collaboration en essaim, à plus de 50 000 intelligences de niveau L3 déjà dotées d'une capacité de raisonnement approfondi dans leur domaine vertical, de former des groupes libres, de s'imbriquer sur plusieurs niveaux et de former dynamiquement des équipes, exécutant continuellement des tâches complexes de plus de 1 000 étapes pendant deux heures sans interruption, avec une consommation par tâche de

Aug 2, 2025

Trae s'élève fortement ! Prise en charge d'OpenAI o3, déverrouillant une nouvelle ère d'édition de code avec l'IA

L'éditeur de code AI Trae, appartenant à ByteDance, annonce la prise en charge du dernier modèle o3 d'OpenAI, offrant aux développeurs une expérience d'écriture de code plus puissante. Le modèle o3, grâce à ses capacités exceptionnelles de raisonnement logique et d'utilisation d'outils, améliore considérablement la précision de la génération et du débogage du code. Avec l'intégration de o3, Trae dispose de fonctions telles que la génération intelligente de code, le débogage sensible au contexte et la collaboration entre plusieurs outils, permettant de générer un code de haute qualité à partir de simples descriptions et de localiser précisément les erreurs. La communauté des développeurs réagit positivement, estimant que cela améliore considérablement l'efficacité du développement. Trae accorde également une importance particulière à la confidentialité des utilisateurs.

Aug 1, 2025

Journal AI : La version accélérée de Kimi K2 est lancée ; WHEE de Meitu intègre une fonction de vidéo en haute résolution ; ByteDance lance un nouveau modèle Seed Diffusion Preview

1. WHEE améliore vidéos avec IA. 2. Kimi K2: 40 Tokens/s. 3. Qwen3-Coder-Flash: 256K contexte. 4. Anthropic dépasse OpenAI. 5. Seed: génération de code. 6. Grok: vidéo et IA relationnelle. 7. Poe API: 100+ modèles. 8. FLUX.1-Krea: images naturelles. 9. Auggie: outils CLI. 10. MOSS-TTSD: voix longue durée. 11. Claude gère PDF/images/code.....

Aug 1, 2025

Une entreprise liée à DeepSeek dépose une brevet sur l'implémentation innovante d'un grand modèle linguistique, favorisant le développement des technologies de l'intelligence artificielle

Une entreprise liée à DeepSeek a rendu public un brevet sur l'implémentation d'un grand modèle linguistique, en utilisant de manière innovante une architecture distribuée : les étapes de remplissage préalable et de décodage sont déployées respectivement sur des machines à calculs puissants et à mémoire importante. Cette méthode permet d'équilibrer la charge, de réduire l'inactivité du calcul et de réduire significativement le délai tout en améliorant le débit. Le brevet met en évidence l'optimisation de l'extensibilité du système et de la tolérance aux pannes. Le modèle linguistique MoE DeepSeek-V3 possède 670 milliards de paramètres, avec 37 milliards de paramètres activés par token, ce qui favorisera l'application des technologies de l'intelligence artificielle dans divers secteurs. La percée principale réside dans l'utilisation optimisée des ressources matérielles.

Aug 1, 2025

Le Trae IDE de ByteDance suscite des controverses sur la confidentialité des données. L'entreprise publie un communiqué officiel

L'outil d'écriture de code AI de ByteDance, Trae IDE, est impliqué dans une controverse sur la confidentialité des données. Les développeurs ont découvert que cet outil continue à envoyer des données même après la désactivation des rapports d'utilisation, et qu'il dispose d'un mécanisme de mise à jour chaude pouvant être activé à distance. L'entreprise a réagi en affirmant qu'elle ne collecte que des statistiques non sensibles et des indicateurs de performance, utilisés pour l'optimisation du produit, en soulignant qu'elle respecte les régulations sur la protection des données. Cependant, les utilisateurs mettent en doute le manque de transparence concernant le mécanisme de chiffrement des données, et le fait que les types de données collectées ne soient pas spécifiquement listés dans la politique de confidentialité. L'équipe a expliqué que le mécanisme de suivi est indépendant de VSCode, et que la désactivation ne concerne que le module natif, espérant ainsi apaiser les inquiétudes des utilisateurs.

Aug 1, 2025

Creao AI termine un financement de plusieurs millions de dollars pour créer un système d'exploitation collaboratif d'agents du futur

L'entreprise de technologie créée par des ingénieurs en intelligence artificielle, Creao AI, a levé deux tours de financement, totalisant plusieurs millions de dollars, menés par des fonds de capital-risque de premier plan comme Monolith. L'entreprise se concentre sur le développement du prochain système d'exploitation, Agentic OS (AOS), centré sur les agents d'intelligence artificielle, capable de générer des applications intelligentes complètes par le biais de dialogues. Le fondateur, Cheng Kai, a déclaré que l'AOS construirait un réseau de production numérique et améliorerait l'efficacité de la collaboration entre plusieurs agents intelligents. Les investisseurs estiment que l'AOS révolutionnera la manière dont les humains interagissent avec les machines et réduira les barrières techniques. L'équipe provient de géants de la technologie tels que Meta et Apple, et le financement.

Aug 1, 2025

Mise à niveau du «神器» de Claude : les fichiers PDF, images et code peuvent être chargés pour une collaboration transparente entre l'IA et les données

Fonctionnalités améliorées de Claude AI, avec la capacité d'uploader plusieurs formats de fichiers. La dernière version prend en charge les types de fichiers PDF, images, code, etc., permettant une intégration transparente avec les applications d'IA. Le système mis à jour peut effectuer des tâches complexes telles que l'analyse de documents, la reconnaissance d'images et l'optimisation du code, tout en optimisant l'interface utilisateur et le processus de traitement des données. Cette fonctionnalité repose sur des modèles d'IA avancés tels que Claude4 et Claude3.7Sonnet, capables de traiter de manière précise les données multimodales. Cette mise à jour a considérablement amélioré l'efficacité de la collaboration entre l'IA et les données, pour les utilisateurs professionnels et les simples utilisateurs.

Aug 1, 2025

MOSS-TTSD révolutionne le code source : un IA podcast qui devient le roi grâce à un entraînement de plusieurs millions d'heures

Tsinghua & partenaires ouvrent MOSS-TTSD, modèle vocal bilingue basé sur Qwen3-1.7B. XY-Tokenizer permet 1kbps avec qualité préservée, clonage vocal et contrôle d'événements sonores. Performances supérieures en chinois, jusqu'à 960s. Poids, API et démo disponibles.....

Aug 1, 2025

ByteDance Seed soutient l'Université de Tsinghua pour remporter le championnat du monde de football robotique

L'équipe Huoshen de l'Université de Tsinghua a remporté son premier championnat lors du tournoi des robots humanoïdes de la Coupe du monde RoboCup 2025 grâce à l'algorithme HumanoidKick développé en collaboration par l'équipe Seed de ByteDance et l'Université de Tsinghua. Cet algorithme utilise l'apprentissage par renforcement avec profondeur visuelle pour réaliser tout le processus, de la recherche de balle au coup de pied, permettant aux robots de réagir en temps réel aux changements sur le terrain. Le championnat, organisé depuis 1997, est un événement de pointe dans le domaine de la technologie robotique. L'équipe Huoshen de l'Université de Tsinghua a gagné largement lors des matchs de groupe et des phases éliminatoires, et a finalement remporté le titre 5 à 2. Cette percée marque une avancée importante pour la Chine.

Aug 1, 2025

Une jeune entreprise singapouraine spécialisée dans l'IA, SixSense, obtient un financement de 8,5 millions de dollars

SixSense, startup d'IA pour détection de puces, lève 8,5M$ en série A (total 12M$). Fondée par 2 femmes ingénieurs, plateforme sans programmation prédit défauts en temps réel, booste rendement chez GlobalFoundries (+1-2%, -90% inspections manuelles). Cible marché américain.....

Aug 1, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Lancement de Dia, un modèle TTS open source révolutionnaire : prise en charge des émotions, des indices non verbaux et une qualité comparable à une conversation humaine

AIbase基地

Contrôle avancé et fonctionnalités plus personnalisables

Accès au modèle et spécifications techniques

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

L'IA Nano de 360 est rénovée et devient un système de myriade d'intelligences multiples au niveau L4

Trae s'élève fortement ! Prise en charge d'OpenAI o3, déverrouillant une nouvelle ère d'édition de code avec l'IA

Journal AI : La version accélérée de Kimi K2 est lancée ; WHEE de Meitu intègre une fonction de vidéo en haute résolution ; ByteDance lance un nouveau modèle Seed Diffusion Preview

Une entreprise liée à DeepSeek dépose une brevet sur l'implémentation innovante d'un grand modèle linguistique, favorisant le développement des technologies de l'intelligence artificielle

Le Trae IDE de ByteDance suscite des controverses sur la confidentialité des données. L'entreprise publie un communiqué officiel

Creao AI termine un financement de plusieurs millions de dollars pour créer un système d'exploitation collaboratif d'agents du futur

Mise à niveau du «神器» de Claude : les fichiers PDF, images et code peuvent être chargés pour une collaboration transparente entre l'IA et les données

MOSS-TTSD révolutionne le code source : un IA podcast qui devient le roi grâce à un entraînement de plusieurs millions d'heures

ByteDance Seed soutient l'Université de Tsinghua pour remporter le championnat du monde de football robotique

Une jeune entreprise singapouraine spécialisée dans l'IA, SixSense, obtient un financement de 8,5 millions de dollars