El 19 de marzo, se presentó oficialmente un modelo de texto a voz (TTS) de código abierto llamado Orpheus TTS. Este modelo ha llamado rápidamente la atención por su expresividad emocional cercana a la humana, su voz natural y fluida, y su característica de transmisión de salida en tiempo real con una latencia ultrabaja.
Orpheus TTS se centra en la baja latencia y la alta expresividad emocional. Sus características principales incluyen: - **Latencia ultrabaja**: la latencia predeterminada es de aproximadamente 200 milisegundos, pero mediante la optimización de la caché KV del flujo de entrada y el modelo, se puede reducir la latencia a 25-50 milisegundos, lo que satisface las necesidades de la conversación en tiempo real. - **Expresividad emocional**: la salida de voz es natural y fluida, se acerca a las emociones humanas y admite una amplia gama de variaciones de tono, lo que mejora la experiencia de interacción. - **Transmisión de salida en tiempo real**: admite la generación de audio en streaming, lo que garantiza que la generación de voz se sincronice con la entrada y es adecuada para escenarios como asistentes virtuales y sistemas de atención al cliente.
Gracias a sus características de baja latencia y alta naturalidad, se considera que Orpheus TTS tiene un gran potencial en el campo de la conversación en tiempo real. Ya sea para asistentes de voz inteligentes, educación en línea, locutores virtuales o doblaje de personajes de videojuegos, este modelo puede proporcionar una experiencia de interacción de voz más humana. Además, su naturaleza de código abierto ofrece a los desarrolladores más posibilidades de personalización.
Orpheus TTS, con su combinación de expresividad emocional, resultados naturales y latencia ultrabaja, marca un nuevo hito en la tecnología TTS. No solo mejora la calidad de la síntesis de voz, sino que también abre nuevas posibilidades para los escenarios de interacción dinámica mediante la transmisión de salida en tiempo real. En el futuro, este modelo podría convertirse en un referente en el campo de los TTS de código abierto.