Lanzamiento de Dia, un modelo TTS de código abierto revolucionario: admite emociones, indicaciones no verbales y se compara con conversaciones humanas

AIbase基地

Publicado elNoticias de IA · 6 minutos de lectura · Apr 23, 2025

Una startup de dos personas llamada Nari Labs ha lanzado Dia, un modelo de texto a voz (TTS) con 1.600 millones de parámetros, diseñado para generar conversaciones naturales directamente a partir de indicaciones de texto. Su cofundador, Toby Kim, afirma que Dia supera en rendimiento a productos propietarios de competidores como ElevenLabs, a la función de generación de podcasts de NotebookLM de Google, y podría incluso representar una amenaza para el gpt-4o-mini-tts recientemente lanzado por OpenAI.

Kim declaró en la red social X que Dia es comparable en calidad a la función de podcasts de NotebookLM y superior a los modelos abiertos de ElevenLabs Studio y Sesame. Reveló que el modelo se construyó con "cero financiación" y enfatizó que no eran expertos en inteligencia artificial al principio, sino que iniciaron este proyecto por su pasión por la función de podcasts de NotebookLM. Intentaron todas las API de TTS del mercado, pero ninguna era lo suficientemente natural. Kim agradeció a Google por permitirles usar sus chips de unidades de procesamiento de tensor (TPU) para entrenar Dia.

Actualmente, el código y los pesos de Dia están disponibles en código abierto en Hugging Face y GitHub para que los usuarios los descarguen e implementen localmente. Los usuarios individuales también pueden probarlo en línea en Hugging Face Space.

Control de voz

Control avanzado y más funciones personalizables

Dia admite funciones detalladas que incluyen tono emocional, etiquetas de orador y señales de audio no verbales como (risa), (tos), (carraspeo), todo ello solo a través de texto plano. Los ejemplos de Nari Labs muestran que Dia puede interpretar correctamente estas etiquetas, mientras que otros modelos a menudo no las admiten de forma fiable. El modelo actualmente solo admite inglés; el sonido varía en cada ejecución a menos que el usuario modifique la semilla de generación o proporcione una indicación de audio para la clonación de voz.

Nari Labs proporciona en su sitio web ejemplos comparativos de Dia con ElevenLabs Studio y Sesame CSM-1B, mostrando la superioridad de Dia en el manejo del ritmo natural, las expresiones no verbales, los diálogos con múltiples emociones, el contenido con ritmos complejos y la continuación del estilo de voz mediante indicaciones de audio. Nari Labs señala que la demostración de Sesame podría haber utilizado una versión interna con más parámetros.

Acceso al modelo y especificaciones técnicas

Los desarrolladores pueden obtener Dia desde el repositorio de GitHub de Nari Labs y la página del modelo de Hugging Face. El modelo se basa en PyTorch2.0+ y CUDA12.6, y requiere aproximadamente 10 GB de memoria de video. Nari Labs planea ofrecer en el futuro soporte para CPU y una versión cuantificada.

Dia se distribuye bajo la licencia Apache2.0 de código abierto, que permite su uso comercial. Nari Labs enfatiza la prohibición de su uso para fines inmorales y alienta la experimentación responsable. El desarrollo del proyecto ha sido apoyado por Google TPU Research Cloud, el programa ZeroGPU de Hugging Face y otras investigaciones relacionadas. Nari Labs solo cuenta con dos ingenieros, pero invita activamente a la comunidad a contribuir.

Modelo de texto a voz (TTS)Dia NariLabs 1600 millones de parámetros

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

360 NanAI se actualiza a un enjambre de múltiples agentes inteligentes y entra en el nivel de sistema de agente L4

Beijing, 2 de agosto de 2025 —— El Grupo 360 anunció ayer que su NanAI completó una renovación de marca y se actualizó oficialmente al primer sistema de enjambre de agentes inteligentes con capacidad L4 en el mundo, lo que marca la entrada en la era de la entrega de resultados en la que la inteligencia artificial pasó de operaciones individuales a la cooperación grupal. Este sistema permite a más de 50.000 agentes inteligentes de nivel L3, con capacidad de razonamiento profundo en dominios verticales, formar grupos libres, anidarse en capas y formar equipos dinámicos como un enjambre, ejecutando tareas complejas de más de 1000 pasos durante dos horas consecutivas sin interrupción, consumiendo poco por tarea.

Aug 2, 2025

Trae se actualiza de forma destacada! Soporta el modelo o3 de OpenAI y desbloquea una nueva era de edición de código con IA

El editor de código de inteligencia artificial Trae, perteneciente a ByteDance, anuncia el soporte del último modelo o3 de OpenAI, ofreciendo a los desarrolladores una experiencia de programación inteligente más potente. El modelo o3, gracias a su excelente capacidad de razonamiento lógico y uso de herramientas, mejora significativamente la precisión en la generación y depuración de código. Con la integración de o3, Trae cuenta con funciones como generación inteligente de código, depuración con conciencia del contexto y colaboración de múltiples herramientas, permitiendo generar código de alta calidad a partir de simples descripciones y localizar errores con precisión. La comunidad de desarrolladores ha reaccionado con entusiasmo, considerando que mejora considerablemente la eficiencia en la programación. Trae también presta atención a la privacidad del usuario.

Aug 1, 2025

Investigación de Microsoft: 20 profesiones que no se ven afectadas fácilmente por la IA, incluyendo terapeutas de masaje y servicio doméstico

Estudio de Microsoft revela que profesiones médicas y manuales son menos reemplazables por IA. Roles como asistentes quirúrgicos y operadores de maquinaria, que requieren habilidades físicas e interpersonales, muestran mayor resistencia. La investigación destaca la complejidad del impacto tecnológico, con 20 ocupaciones, incluidos operadores de dragado, en menor riesgo de automatización.....

Aug 1, 2025

Diario de IA: Se lanzó la versión rápida de Kimi K2; WHEE de Meitu presenta la función de video en alta definición; ByteDance lanza un nuevo modelo llamado Seed Diffusion Preview

1. Meitu WHEE lanza función 'Video HD' para mejorar videos borrosos con IA. 2. Kimi K2 acelera a 40 tokens/seg. 3. Alibaba abre Qwen3-Coder-Flash, soporta 256K contexto. 4. Anthropic lidera mercado empresarial con 32%. 5. ByteDance lanza Seed para generación de código. 6. Musk anuncia generador de videos y novio virtual para Grok. 7. Poe de Quora ofrece API para 100+ modelos. 8. FLUX.1-Krea optimiza estética natural. 9. Augment lanza CLI Auggie. ....

Aug 1, 2025

Poe actualización potenciada: API abierta, suscripción inmediata, modelos de inteligencia artificial para imágenes y videos cubiertos, compatible con interfaces OpenAI

Poe lanza la función de API, los desarrolladores pueden acceder directamente a todos los modelos y robots de la plataforma mediante una suscripción, incluyendo capacidades de procesamiento de imágenes y videos. Esta API es compatible con interfaces OpenAI, sin necesidad de un nuevo aprendizaje, admite diversas demandas como generación de texto, creación de contenido creativo, etc. El diseño basado en suscripción reduce las barreras de uso, permitiendo a los desarrolladores integrar rápidamente la capacidad técnica de Poe y explorar el potencial de las aplicaciones de IA. Esta actualización marca un cambio de Poe desde una plataforma de mensajería a una herramienta para desarrolladores.

Aug 1, 2025

Empresas vinculadas a DeepSeek presentan una patente de implementación innovadora de modelos de lenguaje grandes, impulsando un nuevo desarrollo en la tecnología de IA

La empresa vinculada a DeepSeek ha presentado públicamente una patente sobre la implementación de modelos de lenguaje grandes, utilizando de forma innovadora una arquitectura distribuida: se implementa la fase de prellenado y la fase de decodificación en máquinas de cómputo de alto rendimiento y con gran memoria, respectivamente. Este método equilibra la carga, reduce el tiempo ocioso del cálculo y reduce significativamente la latencia, mejorando el rendimiento. La patente destaca la optimización de escalabilidad del sistema y tolerancia a fallos. El modelo de lenguaje MoE DeepSeek-V3 tiene 671 mil millones de parámetros, activando 37 mil millones de parámetros por token, lo que impulsará la aplicación de la tecnología de IA en diversos sectores. El avance central radica en la combinación de recursos de hardware.

Aug 1, 2025

La herramienta de programación de inteligencia artificial de ByteDance, Trae IDE, desencadena controversia sobre la privacidad de los datos. La empresa emite una declaración relacionada

La herramienta de programación de inteligencia artificial de ByteDance, Trae IDE, se ve envuelta en una controversia sobre la privacidad de los datos. Los desarrolladores descubrieron que incluso después de desactivar el telemetría, sigue subiendo datos continuamente y existe un mecanismo de actualización remota activable. La empresa respondió diciendo que solo recopila estadísticas no sensibles y métricas de rendimiento, utilizadas para optimizar el producto, y destacó que cumple con las normas de protección de datos. Sin embargo, los usuarios cuestionan la transparencia del mecanismo de cifrado de datos y la política de privacidad no especifica claramente los tipos de datos recopilados. El equipo explicó que el mecanismo de telemetría es independiente de VSCode, y que lo desactivado fue solo el módulo nativo, deseando aliviar las preocupaciones de los usuarios.

Aug 1, 2025

Creao AI completa una financiación de millones de dólares para desarrollar un sistema operativo colaborativo del futuro basado en Agentes

La empresa emergente de inteligencia artificial Creao AI completó dos rondas de financiación, con un total de varios millones de dólares, lideradas por destacados fondos de capital de riesgo como Monolith. La empresa se enfoca en el desarrollo del siguiente sistema operativo, Agentic OS (AOS), centrado en Agentes de IA, que genera aplicaciones inteligentes de todo el stack mediante conversaciones. El fundador Cheng Kai señaló que AOS construirá una red de producción digital y mejorará la eficiencia de la colaboración entre múltiples agentes inteligentes. Los inversores creen que AOS redefinirá la forma en que las personas interactúan con las máquinas y reducirá la barrera tecnológica. El equipo proviene de grandes empresas tecnológicas como Meta y Apple, y la financiación

Aug 1, 2025

Mejora de los dispositivos de Claude: se pueden subir archivos PDF, imágenes y código, con una colaboración sin fisuras entre la aplicación de IA y los datos

Mejoras en las funciones de Claude AI, con nueva capacidad para cargar archivos en varios formatos. La última versión admite tipos de archivo como PDF, imágenes y código, logrando una integración fluida con las aplicaciones de IA. El sistema actualizado puede realizar tareas complejas como análisis de documentos, reconocimiento de imágenes y optimización de código, además de mejorar la interfaz de usuario y los procesos de manejo de datos. Esta función se basa en modelos de IA avanzados como Claude4 y Claude3.7Sonnet, capaces de procesar con precisión datos multimodales. Esta actualización mejora significativamente la eficiencia de la colaboración entre la IA y los datos, para usuarios profesionales y generales

Aug 1, 2025

MOSS-TTSD revoluciona el código abierto: un AI que domina los podcasts tras millones de horas de entrenamiento

Tsinghua y socios lanzan MOSS-TTSD, modelo de voz bilingüe basado en Qwen3-1.7B. Tecnología XY-Tokenizer permite 1kbps manteniendo calidad, clonación de voz y control de eventos. Supera a MoonCast en métricas chinas, soporta 960s de audio. Disponible en GitHub con API y demo para podcasts/audiolibros.....

Aug 1, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Lanzamiento de Dia, un modelo TTS de código abierto revolucionario: admite emociones, indicaciones no verbales y se compara con conversaciones humanas

AIbase基地

Control avanzado y más funciones personalizables

Acceso al modelo y especificaciones técnicas

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

360 NanAI se actualiza a un enjambre de múltiples agentes inteligentes y entra en el nivel de sistema de agente L4

Trae se actualiza de forma destacada! Soporta el modelo o3 de OpenAI y desbloquea una nueva era de edición de código con IA

Investigación de Microsoft: 20 profesiones que no se ven afectadas fácilmente por la IA, incluyendo terapeutas de masaje y servicio doméstico

Diario de IA: Se lanzó la versión rápida de Kimi K2; WHEE de Meitu presenta la función de video en alta definición; ByteDance lanza un nuevo modelo llamado Seed Diffusion Preview

Poe actualización potenciada: API abierta, suscripción inmediata, modelos de inteligencia artificial para imágenes y videos cubiertos, compatible con interfaces OpenAI

Empresas vinculadas a DeepSeek presentan una patente de implementación innovadora de modelos de lenguaje grandes, impulsando un nuevo desarrollo en la tecnología de IA

La herramienta de programación de inteligencia artificial de ByteDance, Trae IDE, desencadena controversia sobre la privacidad de los datos. La empresa emite una declaración relacionada

Creao AI completa una financiación de millones de dólares para desarrollar un sistema operativo colaborativo del futuro basado en Agentes

Mejora de los dispositivos de Claude: se pueden subir archivos PDF, imágenes y código, con una colaboración sin fisuras entre la aplicación de IA y los datos

MOSS-TTSD revoluciona el código abierto: un AI que domina los podcasts tras millones de horas de entrenamiento