Fish Audio ha lanzado oficialmente su nuevo modelo de generación de voz, OpenAudio S1, que se caracteriza por un sonido extremadamente natural, un amplio control de tono y una capacidad impresionante para seguir instrucciones, logrando un nivel de expresividad y naturalidad comparable al de actores de doblaje profesionales. Este modelo ha ocupado el primer lugar en el ranking de TTS-Arena, convirtiéndose en un nuevo estándar en el campo de la conversión de texto a voz (TTS). AIbase analiza a fondo las características innovadoras de OpenAudio S1 y sus posibles impactos.
OpenAudio S1: Redefiniendo la experiencia de generación de voz AI
OpenAudio S1 es una completa mejora basada en la serie Fish Speech de Fish Audio, gracias a su diseño arquitectónico avanzado y a grandes volúmenes de datos de entrenamiento, ha logrado una naturalidad y expresividad sin precedentes en la generación de voz. Los puntos destacados principales incluyen:
Voz extremadamente natural: La voz generada es fluida y realista, casi indistinguible de la de un actor de doblaje humano, aplicable a escenarios profesionales como el doblaje de videos, podcasts y voces de personajes de juegos.
Control detallado del tono: Soporta más de 50 marcas de emociones y tonos, como (enojado), (feliz), (triste), (susurro), (empatía), entre otros, permitiendo a los usuarios ajustar flexiblemente la expresión vocal mediante instrucciones de lenguaje natural.
Capacidad superior de seguimiento de instrucciones: A través de simples instrucciones de texto, los usuarios pueden controlar detalles como la velocidad, volumen, pausas e incluso risas, creando salidas vocales altamente personalizadas.
Gracias a 200.000 horas de datos de audio de entrenamiento, OpenAudio S1 ha logrado importantes avances en la calidad y diversidad de la generación de voz, cubriendo 13 idiomas, incluidos inglés, chino, japonés, coreano, francés, alemán, árabe y español, demostrando una gran capacidad multilingüe.
Vídeo proporcionado por la oficina central, traducción: Xiao Hu
TTS-Arena en primera posición: Reconocimiento profesional
En la última evaluación de TTS-Arena, OpenAudio S1, bajo el nombre "Anonymous Sparkle", alcanzó el primer lugar, superando a muchos modelos de código abierto y propietarios. TTS-Arena compara la naturalidad y expresividad de diferentes modelos de TTS mediante votaciones de usuarios, y OpenAudio S1 obtuvo un amplio reconocimiento por su calidad de voz realista y su expresión emocional detallada.
Además, OpenAudio S1 mostró un excelente desempeño en la evaluación Seed TTS, con una tasa de error de palabras en inglés (WER) tan baja como 0,008 y una tasa de error de caracteres (CER) de solo 0,004, superando claramente a los modelos tradicionales, lo que prueba su liderazgo en precisión de voz.
Puntos técnicos: Arquitectura Dual-AR y entrenamiento RLHF
Arquitectura Dual-AR innovadora
OpenAudio S1 utiliza una arquitectura dual-autorregresiva (Dual-AR) única, combinando módulos Transformer rápidos y lentos, optimizando la estabilidad y eficiencia de la generación de voz. Esta arquitectura mejora la capacidad de procesamiento de la base de códigos mediante la tecnología GFSQ (Vectorización Escalar Agrupada Finita), asegurando salidas de voz de alta fidelidad mientras reduce el costo computacional.
Expresión emocional impulsada por RLHF
OpenAudio S1 mejora significativamente su capacidad de expresión emocional mediante la técnica de **Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF)**. En comparación con los modelos TTS tradicionales, S1 puede capturar más precisamente el timbre y entonación de la voz, generando expresiones emocionales más naturales. Por ejemplo, los usuarios pueden controlar sutiles emociones como (emoción), (nerviosismo) o (alegría) mediante marcadores, satisfaciendo diversas necesidades desde anuncios hasta asistentes virtuales.
Aplicaciones prácticas: Posibilidades ilimitadas desde la creatividad hasta el comercio
La versatilidad y rendimiento de OpenAudio S1 demuestran un gran potencial en múltiples sectores:
Creación de contenido: Generar voces profesionales para videos, podcasts y libros audibles, mejorando significativamente la productividad.
Asistentes virtuales: Crear sistemas de navegación o atención al cliente personalizados, soportando interacciones en varios idiomas.
Juegos y entretenimiento: Generar diálogos y narraciones realistas para personajes de juegos, mejorando la inmersión.
Educación y accesibilidad: Proporcionar servicios de texto a voz de alta calidad para usuarios con discapacidades visuales o generar contenido educativo multilingüe.
Conveniencia de clonación de voz
OpenAudio S1 soporta clonación de voz sin muestra y con pocas muestras, siendo posible generar una voz clonada de alta fidelidad con solo 10-30 segundos de muestra de audio, todo en menos de un minuto. Esta función es particularmente útil en escenarios donde se necesita generar voces personalizadas rápidamente, como locutores personalizados o simulación de voces de celebridades.
Modelos abiertos y comerciales: Opciones flexibles de implementación
OpenAudio S1 ofrece dos versiones: **S1 (4B parámetros, modelo propietario) y S1-mini (0,5B parámetros, modelo de código abierto)**, satisfaciendo diferentes necesidades de los usuarios. S1-mini ya está completamente abierto al público, permitiendo a los desarrolladores acceder y personalizarlo libremente a través de GitHub, ideal para escenarios de investigación y educación; mientras que S1 proporciona soporte de alto rendimiento a través de servicios en la nube, con un modelo de precios asequible, asegurando un costo controlable.
Los comentarios de los usuarios indican que OpenAudio S1 supera a competidores como ElevenLabs en términos de realismo vocal y delicadeza emocional, especialmente destacándose en soporte multilingüe y eficiencia en la producción. La velocidad de procesamiento en la nube es extremadamente rápida, promediando 20 segundos para generar una voz de alta calidad y admitiendo procesamiento por lotes, lo que lo hace ideal para aplicaciones comerciales a gran escala.
Visión futura: Un nuevo capítulo en la interacción de voz
Fish Audio indica que el lanzamiento de OpenAudio S1 es solo el principio. En el futuro, el equipo planea agregar funciones de interacción de voz en tiempo real, permitiendo conversaciones fluidas con personajes de bases de datos de voz, mejorando aún más la experiencia de interacción. Además, mediante la expansión continua de los datos de entrenamiento y la optimización de RLHF, S1 podría soportar más idiomas y expresiones emocionales más complejas, consolidando su liderazgo en el campo TTS.
AIbase considera que el lanzamiento de OpenAudio S1 marca un importante cambio hacia la profesionalización y democratización de la tecnología de voz AI. Su soporte multilingüe y capacidad de control emocional no solo proporciona espacio para la innovación a los desarrolladores, sino que también brinda a los usuarios comunes una experiencia de interacción vocal más natural. Con la proximidad de las funciones de interacción en tiempo real, OpenAudio S1 podría redefinir el panorama de aplicaciones de voz en asistentes virtuales, creación de contenido y juegos.