En las actualizaciones de desarrollo recientes, Google lanzó la versión 2.5 de Gemini, marcando un avance importante en la tecnología de conversación y generación de audio por inteligencia artificial. Gemini 2.5 es un sistema de inteligencia artificial multimodal capaz de entender y generar de forma nativa texto, imágenes, audio, video y código, mejorando la experiencia de interacción del usuario con la IA.
La función de conversación de audio en tiempo real de Gemini 2.5 hace que la comunicación entre humanos y máquinas sea más natural. Las conversaciones humanas a menudo involucran tono, acento y sonidos no verbales (como risas), todos los cuales pueden ser representados mediante la tecnología de generación de audio de Gemini. Su característica de baja latencia garantiza una comunicación fluida y natural, permitiendo a los usuarios ajustar el estilo de la conversación mediante lenguaje natural, como seleccionar diferentes acentos y tonos, e incluso comunicarse en susurros.
Conversación de audio en tiempo real
Las conversaciones humanas son ricas y detalladas, y su significado no solo depende de lo que se dice, sino también de los tonos, acentos y sonidos no verbales, como las risas. Gemini 2.5 busca lograr una comunicación eficiente y en tiempo real a través del audio, con funciones de conversación de audio que incluyen:
- Diálogo natural: proporciona interacción vocal de alta calidad, mostrando expresividad y ritmo adecuados para que la conversación fluya de manera natural, con una latencia extremadamente baja.
- Control de estilo: los usuarios pueden personalizar el tono, acento y expresión emocional de la conversación mediante indicaciones verbales, e incluso realizar diálogos en susurros.
- Integración de herramientas: durante el diálogo, Gemini 2.5 puede invocar herramientas y funciones para obtener información en tiempo real de fuentes como Google Search, aumentando la utilidad de la conversación.
- Sensibilidad al contexto del diálogo: el sistema puede identificar y ignorar el ruido de fondo y diálogos irrelevantes, asegurando que responda en el momento adecuado.
- Comprensión de audio y video en tiempo real: admite flujos de audio y video en tiempo real y puede discutir contenido de video o información compartida en la pantalla.
- Soporte multilingüe: soporta más de 24 idiomas y puede cambiar flexiblemente entre ellos en la misma conversación.
- Diálogo emocional: reacciona según el tono del usuario y entiende las diferencias emocionales en diferentes formas de expresión.
- Diálogo avanzado: mediante la capacidad de razonamiento, mejora la coherencia e inteligencia de la conversación, especialmente destacándose en problemas complejos.
Tecnología de texto a voz controlable
La tecnología de texto a voz (TTS) de Gemini 2.5 ha experimentado un nuevo avance, permitiendo a los usuarios no solo generar salidas vocales naturales, sino también controlar el audio de manera sin precedentes. Los usuarios pueden generar desde frases cortas hasta narraciones largas, controlando con precisión el estilo, tono, emoción y presentación, todo lo cual puede ajustarse a través de indicaciones verbales.
- Presentación dinámica: se puede leer el texto de manera vívida, ideal para poesía, noticieros y narración de historias, apoyando interpretaciones específicas de emociones y acentos.
- Control de velocidad y pronunciación: los usuarios pueden controlar la velocidad del habla y asegurar la pronunciación precisa de ciertas palabras.
- Generación de diálogos entre múltiples hablantes: puede generar audios de diálogos entre dos personas según la entrada de texto, haciendo que el contenido sea más atractivo.
- Generación de audio en varios idiomas: facilita la creación de contenido de audio en múltiples idiomas, soportando más de 24 idiomas.
Durante el desarrollo de Gemini 2.5, Google evaluó exhaustivamente los riesgos potenciales y adoptó estrategias de mitigación correspondientes. Todas las salidas de audio están incrustadas con una tecnología de marca de agua llamada SynthID para garantizar la transparencia y reconocibilidad de los audios generados por IA.
Gemini 2.5 ofrece a los desarrolladores una amplia gama de funciones de audio nativas, permitiéndoles construir aplicaciones más interactivas a través de Google AI Studio o la API de Gemini de Vertex AI. Los desarrolladores pueden probar la conversación de audio nativa de Gemini 2.5 Flash en la pestaña de flujo de Google AI Studio o elegir la generación controlada de texto a voz, promoviendo la innovación en audio para aplicaciones como anuncios, historias, podcasts y videojuegos.