El modelo de voz SoulX-Podcast de Soul se lanza con un impacto: generación de podcasts sin interrupciones de 90 minutos, la revolución de la voz AI se actualiza nuevamente

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Oct 29, 2025

Hace poco, el campo de la voz de inteligencia artificial (IA) ha experimentado una innovación importante: el modelo de voz SoulX-Podcast lanzado por Soul, que rápidamente se ha convertido en el centro de atención de la industria gracias a sus funciones revolucionarias. Este modelo está diseñado específicamente para contenido en formato de podcast, logrando una generación de voz con un alto grado de realismo, apoyando conversaciones prolongadas, múltiples hablantes y interacciones multilingües, marcando así otro hito en la simulación de conversaciones naturales por parte de la IA.

El punto fuerte principal de SoulX-Podcast es su alta fidelidad y estabilidad. Es capaz de generar continuamente más de 90 minutos de contenido de conversación sin mostrar ninguna degradación en su estabilidad, asegurando una salida fluida y natural. Esta capacidad es especialmente útil para podcasts largos, entrevistas o narraciones, permitiendo que las voces de IA pasen de ser demostraciones cortas a aplicaciones de nivel profesional.

Soporte multilingüe y dialectos: chino y inglés + integración fluida de dialectos

El modelo muestra un excelente desempeño en el procesamiento del lenguaje, apoyando la generación de conversaciones en múltiples rondas en mandarín, inglés y diversos dialectos chinos. Los usuarios pueden cambiar fácilmente entre chino y inglés o incorporar elementos de dialectos locales, creando un ambiente de podcast más característico regionalmente. Además, posee una función de control de paralingüística, como risas, suspiros, pausas, etc., que simulan con precisión expresiones emocionales, mejorando aún más la vida y la inmersión de la voz.

Destaca especialmente la innovación de SoulX-Podcast en el clonado y transferencia sin muestras. Esta función permite al modelo clonar directamente una voz y tono específicos sin necesidad de entrenamiento adicional, logrando personalización de voz. Esto no solo reduce la barrera de desarrollo, sino que también ofrece a los creadores de contenido un espacio infinito para la creatividad, por ejemplo, replicar rápidamente el estilo de entrevistas de figuras públicas o simular el tono único de un presentador virtual.

Impacto en la industria: la era de los podcasts de IA acelera su llegada

Este lanzamiento sin duda impulsará la aplicación generalizada de la voz de IA en los sectores de medios, entretenimiento y educación. Expertos señalan que la aparición de SoulX-Podcast desafiará el modelo tradicional de estudios de grabación, permitiendo a equipos pequeños producir eficientemente contenido de calidad para podcasts. En el futuro, con la iteración del modelo, se espera que se extienda aún más hacia interacciones en tiempo real e integración multiplataforma.

Dirección del proyecto: https://github.com/Soul-AILab/SoulX-Podcast

SoulX-Podcast VozdeIA Interacciónmultilingüe Vozdealtafidelidad

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Black Forest lanza el primer podcast de IA interactivo en China, los usuarios pueden hacer preguntas en cualquier momento

Tencent Hunyuan lanza el primer pódcast interactivo con IA en China, permitiendo a los usuarios hacer preguntas en tiempo real a anfitriones e invitados mediante voz o texto, mejorando la interactividad y eficiencia informativa.....

Oct 29, 2025

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Sistema de audiodrama AI de Doubao genera automáticamente voces múltiples desde texto, con 98% de precisión en roles, revolucionando la producción de contenido auditivo.....

Oct 29, 2025

Diario de IA: Xiaohongshu lanza el modelo de síntesis de diálogo FireRedTTS-2; el nuevo modelo de Wenxin de Baidu alcanza el primer lugar en Hugging Face; xAI planea reducir su personal en 500 personas

¡Bienvenido al programa 【Diario de IA】! Aquí es donde descubres el mundo de la inteligencia artificial cada día. Cada día te presentamos los temas más destacados del ámbito de la IA, enfocándonos en desarrolladores, ayudándote a comprender las tendencias tecnológicas y conocer las aplicaciones de productos innovadores de IA. Productos de IA recientes, haz clic para obtener más información: https://app.aibase.com/zh1. Xiaohongshu lanza el nuevo modelo de síntesis de diálogo FireRedTTS-2, que ayuda en la producción de podcasts de IA. FireRedTTS-2 es el nuevo modelo lanzado por el equipo de tecnología de audio inteligente de Xiaohongshu.

Sep 15, 2025

150

Diario de IA: DingTalk celebra su décimo aniversario con la versión 8.0; WeChat lanza silenciosamente un podcast de IA; Alibaba abre el código de Mobile-Agent 3

Resumen diario de IA para desarrolladores. DingTalk lanza versión 8.0 con IA 'ONE' para interacción conversacional en oficina.....

Aug 25, 2025

100

¡El podcast de inteligencia artificial de WeChat sorprende con una noticia en diálogo entre dos personas! ¿Los presentadores tradicionales perderán su empleo?

WeChat prueba función de podcast IA. Accede buscando '快讯' o en páginas de cuentas oficiales. Haz clic en '听快讯' para probar. Podría cambiar el consumo de noticias.....

Aug 25, 2025

110

Ingenieros de OpenAI dicen que los empleados que revisan modelos de IA son los más buscados, pero no pueden revelar sus nombres

El personal principal de OpenAI reveló accidentalmente en un podcast la alta confidencialidad de la información sobre talento en la empresa, lo que ha generado atención en la industria. Al discutir la importancia de la revisión de modelos de IA, el investigador Sidor mencionó que la empresa está reclutando a excelentes profesionales para esta tarea, pero fue interrumpido por un compañero que le pidió no revelar el nombre. Este fragmento fue eliminado en algunas plataformas. Esto refleja la intensa competencia por talento en la industria de IA. Previamente, Meta contrató a varios miembros clave de OpenAI con salarios muy altos, y Google también está reclutando activamente a expertos en IA. A medida que avanza la tecnología de IA, los ingenieros de revisión se han convertido en recursos escasos.

Aug 5, 2025

La versión para PC y la versión web de DouBao lanzan la función de Podcast de IA

Hoy, la versión para PC y la versión web de DouBao lanzan oficialmente una nueva función de Podcast de IA, brindando a los usuarios una revolución en la forma de manejar e recibir información. Los usuarios solo necesitan acceder a doubao.com, elegir la función de Podcast de IA en la página, cargar un archivo PDF o un enlace web, y rápidamente generarán un contenido de podcast en forma de conversación entre dos personas. Esta innovadora función elimina el trabajo complejo de edición que se requiere para la creación tradicional de podcasts, permitiendo a los usuarios escuchar largos artículos fácilmente en cualquier momento y lugar. En cuanto al efecto de voz, DouBao Podcast brilla con excelencia. La voz generada es extremadamente natural, capaz de

Jun 17, 2025

Modelo de voz y podcast Beanbao · publicado por ByteDance Volcano Engine y modelo de voz en tiempo real Beanbao

Jun 11, 2025

Boletín de IA: Google lanza el paquete completo de IA más potente, Google AI Ultra; Tencent Mixbo宣布 actualización completa de su matriz de modelos; se lanza el modelo de emisión de podcast Douding

May 21, 2025

130

Google Docs lance une nouvelle fonctionnalité de lecture vocale IA pour vous aider à détecter les erreurs

Google Docs lance une nouvelle fonctionnalité très attendue : les aperçus audio. Cette fonctionnalité vise à aider les utilisateurs à améliorer la qualité de leur écriture en écoutant la lecture de leur document, tout en offrant aux utilisateurs occupés un moyen pratique de faire plusieurs choses à la fois. Les aperçus audio lisent à haute voix le contenu du document de l'utilisateur, aidant ainsi les auteurs à détecter les fautes d'orthographe et les formulations maladroites. Souvent, les auteurs ont des angles morts concernant leur propre travail et ont tendance à négliger les petites erreurs ou les problèmes de style.

Apr 11, 2025

110

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Deployment Calculator

AI Dataset Collection

Intelligent Document Recognition