La última tecnología de generación de voz lanzada por Google ha vuelto a superar los estándares de la industria. Esta tecnología innovadora no solo puede generar conversaciones naturales de hasta 2 minutos en tan solo 3 segundos, sino que también garantiza la coherencia y la calidad del sonido entre múltiples hablantes. Esta tecnología ya se está utilizando en varios productos de Google, como Gemini Live y Project Astra, y está cambiando la forma en que las personas interactúan con los asistentes digitales y las herramientas de IA en todo el mundo.

image.png

Durante los últimos años, Google se ha centrado en la investigación en el campo de la generación de audio. Han desarrollado modelos capaces de crear voz de alta calidad y natural a partir de diversas entradas, como texto, control del ritmo y sonidos específicos. Recientemente, Google, en colaboración con varios equipos internos, ha lanzado dos funciones importantes: NotebookLM, que permite convertir documentos cargados en conversaciones animadas; e Illuminate, que genera debates formales de IA sobre artículos de investigación, facilitando la comprensión y asimilación de conocimientos especializados.

Estos avances se basan en los logros previos de Google en numerosas investigaciones. Desde el códec de audio neuronal SoundStream, hasta el marco de modelado de lenguaje de audio AudioLM, y SoundStorm, capaz de generar conversaciones de 30 segundos con múltiples participantes, Google continúa innovando en el campo de la generación de voz. El último avance tecnológico utiliza un códec de voz más eficiente que permite comprimir el audio a una baja tasa de bits de 600 bits por segundo, manteniendo al mismo tiempo la calidad de salida.

Para lograr este avance tecnológico, Google desarrolló una arquitectura Transformer específica que procesa de manera eficiente la jerarquía de información. El modelo primero se preentrena con cientos de miles de horas de datos de voz, y luego se ajusta finamente con conjuntos de datos de conversaciones de alta calidad que incluyen características naturales de las conversaciones reales, como las pausas en el habla. Para garantizar el uso responsable de la tecnología, Google también ha integrado la tecnología SynthID, que agrega una marca de agua al contenido de audio generado por IA.

De cara al futuro, Google se centra en mejorar la fluidez y la calidad del sonido del modelo, y en añadir funciones de control más detalladas. Combinado con los modelos de la serie Gemini, esta tecnología tiene el potencial de desempeñar un papel importante en la mejora de la experiencia educativa y la accesibilidad del contenido, abriendo nuevas posibilidades para la tecnología de voz.

La importancia de esta tecnología radica no solo en la mejora de su rendimiento, sino también en que abre un nuevo capítulo en la interacción entre humanos y máquinas. Al transformar innovaciones tecnológicas complejas en una forma de interacción natural e intuitiva, Google está sentando las bases para la próxima generación de experiencias digitales.

Más información: https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/