Fish Audio acaba de lanzar una bomba: Fish Speech 1.5. Este nuevo modelo de síntesis de voz es realmente inmersivo. No solo supera a sus predecesores en precisión, estabilidad y capacidad multilingüe, sino que también añade cinco nuevos idiomas. Además, Fish Speech 1.5 pronto incluirá una función de conversación fluida en tiempo real, permitiendo a los usuarios interactuar con diferentes bancos de voz en cualquier momento y lugar.
Fish Speech 1.5 tiene un conocimiento considerable. Ha sido entrenado con más de 1 millón de horas de datos multilingües, dominando actualmente 13 idiomas, incluyendo inglés, chino y japonés. Y no es solo una exageración: ¡ha obtenido el segundo lugar en el ranking anónimo de TTS-Arena!
La función de clonación de voz de Fish Speech 1.5 es increíblemente rápida, con un tiempo de latencia inferior a 150 milisegundos, ¡prácticamente en tiempo real! Y lo que es más importante, Fish Speech 1.5 ofrece código abierto para el modelo preentrenado, permitiendo a los usuarios ajustarlo localmente o utilizar servicios en la nube.
Características principales:
Síntesis de voz con cero y pocos ejemplos: Solo necesita una muestra de audio de 10 a 30 segundos para imitar con precisión y generar una salida de alta calidad. ¡Es como un super imitador!
Soporte multilingüe e interlingüístico: ¿Cansado de las barreras del idioma? Fish Speech 1.5 las elimina. Simplemente pega el texto en el cuadro de entrada y ¡listo! Actualmente admite inglés, japonés, coreano, chino, francés, alemán, árabe y español. ¡Ahora puedes charlar sin problemas con amigos de todo el mundo!
Independencia de fonemas: A diferencia de los modelos tradicionales que dependen de fonemas, Fish Speech 1.5 tiene una capacidad de generalización superior, pudiendo procesar cualquier guion de texto, ¡una revolución en el mundo de la síntesis de voz!
Alta precisión: Para un artículo en inglés de 5 minutos, Fish Speech 1.5 tiene una tasa de error de solo el 2%, ¡una cifra asombrosa!
Rapidez: La velocidad de Fish Speech 1.5 es excepcional. En un portátil Nvidia RTX 4060, su factor de tiempo real es de aproximadamente 1:5, mientras que en una Nvidia RTX 4090 alcanza 1:15. ¡Increíblemente rápido!
Fish Speech 1.5 también admite la implementación local:
WebUI: Ofrece una interfaz web sencilla e intuitiva, compatible con Chrome, Firefox, Edge y otros navegadores populares, para disfrutar de la síntesis de voz en cualquier momento y lugar.
GUI: También ofrece una interfaz gráfica PyQt6 que se integra perfectamente con el servidor API, compatible con Linux, Windows y macOS.
Fácil implementación: Puedes implementar fácilmente Fish Speech 1.5 en sistemas Linux, Windows y macOS, minimizando la pérdida de velocidad.
Dirección del sitio web: https://fish.audio/zh-CN/
Dirección del proyecto: https://github.com/fishaudio/fish-speech