Lanzamiento de la versión 2.5 de Gemini con funciones de audio nativas, las conversaciones con IA son más naturales

AIbase基地

Publicado elNoticias de IA · 7 minutos de lectura · Jun 5, 2025

En las actualizaciones de desarrollo recientes, Google lanzó la versión 2.5 de Gemini, marcando un avance importante en la tecnología de conversación y generación de audio por inteligencia artificial. Gemini 2.5 es un sistema de inteligencia artificial multimodal capaz de entender y generar de forma nativa texto, imágenes, audio, video y código, mejorando la experiencia de interacción del usuario con la IA.

La función de conversación de audio en tiempo real de Gemini 2.5 hace que la comunicación entre humanos y máquinas sea más natural. Las conversaciones humanas a menudo involucran tono, acento y sonidos no verbales (como risas), todos los cuales pueden ser representados mediante la tecnología de generación de audio de Gemini. Su característica de baja latencia garantiza una comunicación fluida y natural, permitiendo a los usuarios ajustar el estilo de la conversación mediante lenguaje natural, como seleccionar diferentes acentos y tonos, e incluso comunicarse en susurros.

Conversación de audio en tiempo real

Las conversaciones humanas son ricas y detalladas, y su significado no solo depende de lo que se dice, sino también de los tonos, acentos y sonidos no verbales, como las risas. Gemini 2.5 busca lograr una comunicación eficiente y en tiempo real a través del audio, con funciones de conversación de audio que incluyen:

Diálogo natural: proporciona interacción vocal de alta calidad, mostrando expresividad y ritmo adecuados para que la conversación fluya de manera natural, con una latencia extremadamente baja.
Control de estilo: los usuarios pueden personalizar el tono, acento y expresión emocional de la conversación mediante indicaciones verbales, e incluso realizar diálogos en susurros.
Integración de herramientas: durante el diálogo, Gemini 2.5 puede invocar herramientas y funciones para obtener información en tiempo real de fuentes como Google Search, aumentando la utilidad de la conversación.
Sensibilidad al contexto del diálogo: el sistema puede identificar y ignorar el ruido de fondo y diálogos irrelevantes, asegurando que responda en el momento adecuado.
Comprensión de audio y video en tiempo real: admite flujos de audio y video en tiempo real y puede discutir contenido de video o información compartida en la pantalla.
Soporte multilingüe: soporta más de 24 idiomas y puede cambiar flexiblemente entre ellos en la misma conversación.
Diálogo emocional: reacciona según el tono del usuario y entiende las diferencias emocionales en diferentes formas de expresión.
Diálogo avanzado: mediante la capacidad de razonamiento, mejora la coherencia e inteligencia de la conversación, especialmente destacándose en problemas complejos.

Tecnología de texto a voz controlable

La tecnología de texto a voz (TTS) de Gemini 2.5 ha experimentado un nuevo avance, permitiendo a los usuarios no solo generar salidas vocales naturales, sino también controlar el audio de manera sin precedentes. Los usuarios pueden generar desde frases cortas hasta narraciones largas, controlando con precisión el estilo, tono, emoción y presentación, todo lo cual puede ajustarse a través de indicaciones verbales.

Presentación dinámica: se puede leer el texto de manera vívida, ideal para poesía, noticieros y narración de historias, apoyando interpretaciones específicas de emociones y acentos.
Control de velocidad y pronunciación: los usuarios pueden controlar la velocidad del habla y asegurar la pronunciación precisa de ciertas palabras.
Generación de diálogos entre múltiples hablantes: puede generar audios de diálogos entre dos personas según la entrada de texto, haciendo que el contenido sea más atractivo.
Generación de audio en varios idiomas: facilita la creación de contenido de audio en múltiples idiomas, soportando más de 24 idiomas.

Durante el desarrollo de Gemini 2.5, Google evaluó exhaustivamente los riesgos potenciales y adoptó estrategias de mitigación correspondientes. Todas las salidas de audio están incrustadas con una tecnología de marca de agua llamada SynthID para garantizar la transparencia y reconocibilidad de los audios generados por IA.

Gemini 2.5 ofrece a los desarrolladores una amplia gama de funciones de audio nativas, permitiéndoles construir aplicaciones más interactivas a través de Google AI Studio o la API de Gemini de Vertex AI. Los desarrolladores pueden probar la conversación de audio nativa de Gemini 2.5 Flash en la pestaña de flujo de Google AI Studio o elegir la generación controlada de texto a voz, promoviendo la innovación en audio para aplicaciones como anuncios, historias, podcasts y videojuegos.

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

La empresa noruega de robots 1X presenta su primer robot humanoide para uso doméstico, Neo, con un precio de 20.000 dólares y una tarifa de suscripción mensual de 499 dólares. Este robot de 1,68 metros está diseñado especialmente para tareas como lavar platos y ordenar, y utiliza un modelo de cooperación entre IA y operadores humanos a distancia, necesitando soporte externo para completar tareas complejas.

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

Amazon AWS anunció que invertirá otros 5.000 millones de dólares en Corea durante los próximos seis años para ampliar los centros de datos de inteligencia artificial, y colaborará con el Grupo SK para construir una instalación grande en Ulsan. La inversión total en Corea alcanzará los 12.600 millones de dólares, lo que demuestra su importancia estratégica para el mercado coreano.

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

La rápida evolución de las tecnologías de IA está transformando la industria de los videojuegos. La IA generativa trae nuevas oportunidades y desafíos, y empresas como Microsoft y Amazon están reorientando sus recursos hacia aplicaciones de IA. Los desarrolladores de videojuegos tienen opiniones diferentes sobre esto, y el futuro de la industria sigue siendo incierto.

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Qualcomm presenta dos chips de inferencia de IA en la nube, el AI200 y el AI250, que planea comercializar en 2026 y 2027, lo que marca su transición hacia una infraestructura integral de IA. Esta noticia impulso un aumento del 20% en el precio de las acciones en un solo día, el mayor aumento desde 2019. A diferencia de la estrategia completa de NVIDIA, Qualcomm se centra en el mercado de la inferencia de modelos grandes, destacando su ventaja en eficiencia energética y costo.

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

El 29 de octubre, Magic Leap y Google anunciaron una nueva colaboración en la conferencia Iniciativa de Inversión Futura de Riad, trabajando juntos para desarrollar un prototipo de gafas AR y promover avances en la tecnología de realidad aumentada. Ross Rosenburg, líder de Magic Leap, declaró que la empresa se está transformando de pionera en realidad aumentada a socio de ecosistema, aprovechando su experiencia en innovaciones ópticas y de visualización para alcanzar una nueva etapa de su visión.

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

El equipo de Tsinghua y Kuaishou Ling presenta el modelo SVG, que reemplaza al VAE, resolviendo el problema de entrelazamiento semántico, mejorando la eficiencia de entrenamiento en un 6200% y la velocidad de generación en un 3500%, lo que marca el paulatino abandono del VAE en el campo de generación de imágenes.

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

En la conferencia GTC de 2025, NVIDIA presentó el "Diseño Omniverse DSX", un esquema diseñado específicamente para centros de datos de IA de nivel giga, conocido como "fábrica de IA". Este esquema está basado en el marco Omniverse y admite diferentes escalas, desde 100 millones hasta 1.000 millones de vatios, con el objetivo de entrenar y ejecutar eficientemente modelos de IA grandes, satisfaciendo la creciente demanda de cálculo de IA, siendo un avance importante en la infraestructura de inteligencia artificial.

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

La televisión central informó sobre el problema de las noticias falsas creadas por la IA. Li Liang, vicepresidente de Douyin, respondió diciendo que la IA es una espada de doble filo: aunque es fácil propagar rumores, Douyin está utilizando la IA para combatirlos, desarrollando agentes inteligentes para buscar rápidamente información autoritativa y desmentir los rumores.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services

AI Model Compatibility Checker

AI Deployment Calculator

Lanzamiento de la versión 2.5 de Gemini con funciones de audio nativas, las conversaciones con IA son más naturales

AIbase基地

Conversación de audio en tiempo real

Tecnología de texto a voz controlable

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

Black Forest lanza el primer podcast de IA interactivo en China, los usuarios pueden hacer preguntas en cualquier momento

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Lanzamiento de la versión 2.5 de Gemini con funciones de audio nativas, las conversaciones con IA son más naturales

AIbase基地

Conversación de audio en tiempo real

Tecnología de texto a voz controlable

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

Black Forest lanza el primer podcast de IA interactivo en China, los usuarios pueden hacer preguntas en cualquier momento

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

​NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

GEO Services

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento