¡Igualando a GPT-SoVITS! El modelo TTS de código abierto Fish Speech, de bajo consumo de memoria, admite perfectamente chino, inglés y japonés

AIbase

Publicado elNoticias de IA · 7 minutos de lectura · Jul 3, 2024

2.4k

Fish Speech es una herramienta de texto a voz completamente nueva desarrollada por fishaudio. No solo admite perfectamente chino, inglés y japonés, sino que también cuenta con una capacidad de procesamiento de voz casi humana, convirtiéndola en la mejor opción para tu asistente de voz personal.

Puntos clave:

😊 Admite perfectamente tres idiomas: chino, inglés y japonés, con un procesamiento de voz casi humano.

😊 Permite la clonación de voz: solo necesitas proporcionar una muestra de voz de referencia para clonar rápidamente.

😊 Requiere muy poca memoria de video (VRAM), solo 4 GB, y admite varios modelos de generación de voz diferentes.

Lo extraordinario del modelo Fish Speech radica en que se entrenó con aproximadamente ciento cincuenta mil horas de datos en tres idiomas. Su rendimiento en chino es simplemente impecable. Como modelo con miles de millones de parámetros, está diseñado para ser eficiente y ligero, lo que significa que puedes ejecutarlo y ajustarlo fácilmente en tus dispositivos personales, disfrutando de la comodidad de la conversión de voz en cualquier momento y lugar.

Soporta chino

Actualmente, la mayoría de las voces disponibles en la biblioteca son de personajes de anime. Al probar AIbase con un texto de entrada, se descubrió que algunos personajes de anime hablan demasiado lento. Si se van a utilizar en videos, es necesario eliminar las pausas demasiado largas. Entre las voces reales, se encuentran las de Ding Zhen, Trump y Sun Xiaochuan, entre otros; sin embargo, para evitar problemas, es mejor no utilizar las voces de otras personas reales. Si deseas utilizar una voz real, puedes considerar crear tu propia voz.

A continuación, se muestra el resultado de la prueba de AIbase:

Aún más emocionante es que Fish Speech utiliza el algoritmo Flash-Attn, diseñado para procesar datos a gran escala, conocido por su eficiencia, precisión y estabilidad. Esto no solo mejora significativamente el rendimiento de la tecnología TTS, sino que también te proporciona una experiencia fluida sin precedentes.

Soporta inglés

Además, la capacidad de clonación de voz de Fish Speech es otro punto destacado. Solo necesitas proporcionar una muestra de voz de referencia, y podrá clonar la voz rápidamente, sin necesidad de un proceso de entrenamiento complicado. Además, requiere muy poca memoria de video (VRAM), solo 4 GB, y tiene una velocidad de inferencia rápida, lo que optimiza enormemente la experiencia del usuario.

Soporta japonés

Por supuesto, la potencia de Fish Speech va mucho más allá. Fish Speech admite varios modelos de generación de voz diferentes, incluyendo, entre otros:

VITS2: Modelo de texto a voz basado en inferencia variacional.
Bert-VITS2: Modelo de texto a voz basado en inferencia variacional que combina el modelo BERT.
GPT VITS: Modelo de texto a voz que combina el modelo GPT.
MQTTS: Modelo de texto a voz basado en tecnología de cuantificación.
GPT Fast: Modelo GPT para generar voz rápidamente.
GPT-SoVITS: Modelo de texto a voz que combina las tecnologías GPT y SoVITS.

Cada modelo tiene sus propias ventajas, satisfaciendo las necesidades de diferentes usuarios.

En resumen, Fish Speech es una herramienta de texto a voz innovadora, eficiente y ligera. No solo puede ser tu asistente de voz personal, sino que también puede proporcionar un potente soporte de voz para tus proyectos creativos. Si te interesa la tecnología de voz o estás buscando una solución TTS rápida y sin entrenamiento complicado, Fish Speech definitivamente merece la pena probarla.

Dirección del sitio web: https://top.aibase.com/tool/fish-audiowenbenzhuanyuyin

Dirección del proyecto: https://github.com/fishaudio/fish-speech

Lanzamiento de Dia, un modelo TTS de código abierto revolucionario: admite emociones, indicaciones no verbales y se compara con conversaciones humanas

Una startup de dos personas llamada Nari Labs ha lanzado Dia, un modelo de texto a voz (TTS) de 1600 millones de parámetros diseñado para generar conversaciones naturales directamente a partir de indicaciones de texto. Su cofundador, Toby Kim, afirma que Dia supera a los productos propietarios de la competencia, como ElevenLabs, y a la función de generación de podcasts de NotebookLM AI de Google, y que podría desafiar a gpt-4o-mini, recientemente lanzado por OpenAI.

Podcastle, la plataforma de podcasts, lanza un modelo de texto a voz con IA: 450 voces disponibles

En el dinámico mundo de los podcasts, la plataforma Podcastle ha anunciado recientemente el lanzamiento de su nuevo modelo de texto a voz con IA, Asyncflow v1.0. Este nuevo modelo no solo ofrece a los usuarios más de 450 voces de IA diferentes, sino que también pone a disposición de los desarrolladores una API para integrar fácilmente esta funcionalidad de texto a voz en sus propias aplicaciones. El fundador de Podcastle, Arto Yeritsyan, declaró que la empresa siempre ha querido desarrollar un texto

Supertone Play, la herramienta de voz AI de HYBE, ya está disponible: clona tu voz en 10 segundos

Recientemente, Supertone, la compañía de voz de inteligencia artificial de HYBE, anunció el lanzamiento de "Supertone Play", una herramienta de texto a voz diseñada para generar contenido de audio de alta calidad y expresivo. Esta nueva herramienta actualmente admite inglés, coreano y japonés, y se espera que se expanda a español y chino en el transcurso del año. Supertone Play ofrece 150 personajes de voz, adecuados para diversas necesidades de creación de contenido, incluyendo conversaciones naturales, noticias profesionales y audiolibros.

Kokoro-TTS: Un pequeño modelo de texto a voz que alcanzó el primer puesto en las clasificaciones de TTS

En el rápido desarrollo de la inteligencia artificial, la tecnología de síntesis de voz está recibiendo cada vez más atención. Recientemente, se lanzó oficialmente en la plataforma Hugging Face un nuevo modelo de síntesis de voz llamado Kokoro, con 82 millones de parámetros, lo que marca un hito importante en el campo de la síntesis de voz. Kokoro v0.19 ocupó el primer lugar en las clasificaciones de TTS (texto a voz) semanas antes de su lanzamiento, superando incluso a otros modelos con más parámetros. Este modelo, en una configuración monoaural, solo con

Hume AI lanza OCTAVE, un motor de voz versátil: texto a voz humana en segundos, clonación de personalidad

¡Gran avance en el campo de la voz con inteligencia artificial! Hume AI ha lanzado recientemente OCTAVE, un nuevo motor de texto a voz que puede generar o clonar voces y rasgos de personalidad realistas con solo una descripción de texto simple o una grabación de voz de 5 segundos, abriendo un mundo de posibilidades para personajes virtuales e interacción humano-máquina. La potencia de OCTAVE reside en su capacidad no solo para generar voz natural, sino también para imitar con precisión el sexo, la edad, el acento, el tono emocional y el estilo de habla específico de una profesión del hablante. Esto lo hace capaz de crear...

¡Instantáneo! ElevenLabs lanza el modelo de diálogo de voz Flash: solo 75 milisegundos de retraso y compatible con 32 idiomas

ElevenLabs ha lanzado recientemente su último modelo de síntesis de voz, Flash, que afirma ser la solución de texto a voz (TTS) más rápida hasta la fecha, con un retraso de generación de voz de tan solo 75 milisegundos (más el retraso de la aplicación y la red). Flash es especialmente adecuado para asistentes de voz conversacionales de baja latencia, y los usuarios pueden experimentar esta nueva función inmediatamente en la plataforma de IA conversacional de ElevenLabs. El modelo Flash se divide en dos versiones: Flash v2 solo admite inglés, mientras que F...

OuteTTS-0.1-350M: Un nuevo método de síntesis de texto a voz con clonación de voz de muestra cero

Recientemente, Oute AI ha lanzado un nuevo método de síntesis de texto a voz llamado OuteTTS-0.1-350M. Este método utiliza el modelado de lenguaje puro, sin adaptadores externos ni arquitecturas complejas, ofreciendo un método TTS simplificado. OuteTTS-0.1-350M se basa en la arquitectura LLaMa y utiliza WavTokenizer para generar directamente etiquetas de audio, lo que hace que el proceso sea más eficiente. Este modelo cuenta con la capacidad de clonación de voz de muestra cero, necesitando solo unos segundos de audio de referencia.

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

¡Igualando a GPT-SoVITS! El modelo TTS de código abierto Fish Speech, de bajo consumo de memoria, admite perfectamente chino, inglés y japonés

AIbase

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas