¡OpenAI presenta su nuevo modelo de voz GPT-Realtime! Soporta entrada de imágenes, la interacción con IA se vuelve increíble

AIbase基地

Publicado elNoticias de IA · 10 minutos de lectura · Aug 29, 2025

OpenAI presenta oficialmente su último modelo de voz GPT-Realtime, un modelo de agente de voz multimodal que ha generado mucho interés en la industria gracias a su potente capacidad de razonamiento, soporte para entrada de imágenes y funcionalidades optimizadas para seguir instrucciones. Según información reciente, AIbase ha descubierto que GPT-Realtime no solo ha logrado avances en la interacción de voz, sino que también ofrece soluciones más inteligentes y flexibles para agentes de voz a los desarrolladores al integrar funciones como entrada de imágenes, llamadas remotas con MCP y SIP.

GPT-Realtime: Pionero en la interacción de voz multimodal

GPT-Realtime es el modelo más avanzado de voz a voz de OpenAI hasta ahora, diseñado específicamente para agentes de voz de producción, utilizando un único modelo para procesar y generar audio, reduciendo significativamente los retrasos en las interacciones de voz tradicionales. A diferencia de los sistemas tradicionales que requieren conectar múltiples modelos como reconocimiento de voz a texto (STT), razonamiento de texto y síntesis de texto a voz (TTS), GPT-Realtime mantiene diferencias sutiles como el tono, la emoción y el acento de la voz mediante una arquitectura de extremo a extremo, ofreciendo una experiencia de conversación más natural y fluida. El modelo admite varios tipos de entrada, incluyendo texto, audio e imágenes, lo que marca un gran avance en el campo de la inteligencia artificial multimodal de OpenAI.

Capacidades principales: Razonamiento inteligente y captura de señales no verbales

GPT-Realtime destaca por su excelente capacidad intelectual, razonamiento y comprensión, especialmente en escenarios complejos de interacción. Sus puntos destacados incluyen:

- Reconocimiento de señales no verbales: El modelo puede capturar con precisión señales no verbales como risas o pausas, mejorando la naturalidad y la experiencia humana de la interacción.

- Cambio de idioma y ajuste de tono: Soporta el cambio de idioma sin problemas durante la conversación y ajusta el tono según las necesidades del escenario, como "atención al cliente profesional" o "guía cálida", satisfaciendo diversos requisitos de aplicación.

- Razonamiento de alta precisión: En la prueba BigBenchAudio, la tasa de precisión de razonamiento de GPT-Realtime alcanzó el 82,8%, lo que representa un aumento significativo frente al modelo anterior (65,6%), demostrando una fuerte capacidad de procesamiento lógico.

- Optimización en seguimiento de instrucciones: En la prueba MultiChallenge de audio, la tasa de precisión en el seguimiento de instrucciones aumentó del 20,6% al 30,5%, asegurando que el modelo siga estrictamente instrucciones complejas definidas por los desarrolladores, como leer literalmente declaraciones legales o procesar secuencias alfanuméricas.

Nuevas funciones: Entrada de imágenes y integración de comunicación

El lanzamiento de GPT-Realtime trae varias funciones innovadoras que amplían aún más las aplicaciones de los agentes de voz:

- Soporte para entrada de imágenes: El modelo puede procesar entradas de imágenes y describir su contenido, añadiendo contexto visual a la interacción de voz, útil en escenarios como educación o soporte al cliente.

- Llamadas remotas con MCP y SIP: Al soportar Protocolo de Contexto de Modelo (MCP) remoto y Protocolo de Inicio de Sesión (SIP), los desarrolladores pueden integrar GPT-Realtime en sistemas telefónicos o herramientas externas, permitiendo interacciones en tiempo real más amplias.

- Control preciso del contexto: El modelo admite funciones como recordatorios reutilizables y edición de sesiones, permitiendo a los desarrolladores gestionar con precisión el contexto de la conversación y optimizar costos y rendimiento.

Optimización de costos: Agentes de voz de producción más accesibles

En esta actualización, OpenAI también ha reducido el precio de la API Realtime, bajando el costo de entrada de audio a 32 dólares por millón de tokens y el de salida a 64 dólares por millón de tokens, disminuyendo un 20% respecto a antes, lo que ofrece una solución más económica a los desarrolladores. Comparado con el pipeline tradicional de interacción de voz, GPT-Realtime reduce significativamente el retraso y los costos al procesar todo con un solo modelo, ayudando a las empresas a implementar agentes de voz eficientes en áreas como soporte al cliente, asistentes personales y educación.

Impacto en la industria: Competencia intensificada en inteligencia artificial de voz

El lanzamiento de GPT-Realtime ha intensificado aún más la competencia en el mercado de inteligencia artificial de voz. Empresas como Anthropic, Meta y Mistral están acelerando su apuesta por la tecnología de voz, como el modo de voz de Claude de Anthropic o el modelo Voxtral de Mistral. OpenAI fortalece su liderazgo en el campo de la inteligencia artificial de voz mediante la baja latencia, alta expresividad y soporte multimodal de GPT-Realtime. Los analistas de la industria consideran que las funciones de entrada de imágenes y la integración de comunicación de este modelo impulsarán la adopción de agentes de voz en aplicaciones empresariales, especialmente en escenarios como centros de atención al cliente y traducción en tiempo real.

Perspectivas futuras: Fundamento de la ecosfera de inteligencia artificial multimodal

OpenAI afirma que GPT-Realtime es un paso importante en su estrategia multimodal, y planea expandirse aún más hacia otros modos como video, ofreciendo herramientas más completas para la interacción con IA a los desarrolladores. Combinado con el SDK de Agents recientemente lanzado por OpenAI, los desarrolladores pueden convertir sus aplicaciones de texto existentes en aplicaciones de interacción de voz con solo unas pocas líneas de código, reduciendo significativamente la barrera de desarrollo. AIbase espera que la apertura y el alto rendimiento de GPT-Realtime aceleren la implementación comercial de agentes de voz a nivel mundial.

GPT-Realtime establece un nuevo estándar en el campo de la inteligencia artificial de voz con su capacidad multimodal sobresaliente, optimización en seguimiento de instrucciones y ventajas en costos. OpenAI, al integrar funciones de entrada de imágenes y comunicación, no solo mejora la utilidad de los agentes de voz, sino que también crea un entorno de desarrollo más flexible y eficiente para los desarrolladores. Este lanzamiento sin duda impulsará la tecnología de interacción con IA hacia nuevas alturas, mereciendo la atención continua de la industria.

Dirección de la API: https://platform.openai.com/docs/guides/realtime

Universidades de todo el mundo persiguen trabajos de IA. ¿Cómo pueden los estudiantes enfrentar el desafío de la humanidad?

Con el rápido desarrollo de la tecnología de inteligencia artificial generativa, los estudiantes disfrutaron durante un tiempo de las ventajas de completar rápidamente sus tareas. Entre 2023 y 2024, muchos estudiantes universitarios generaron ensayos en tan solo 10 minutos usando herramientas como ChatGPT y confiaban en que los profesores no podrían detectarlo. Sin embargo, este período de satisfacción parece haber terminado, ya que las universidades de todo el mundo están adoptando rápidamente una "fase de caza de trabajos de IA." Durante un período anterior, la comunidad académica se sintió abrumada al enfrentarse a la escritura de IA. Según estadísticas, más del 50% de los estudiantes...

El modelo de inteligencia artificial Basado en Silicio se ha lanzado, Ling-mini-2.0 de Ant Group logra un doble éxito en velocidad y rendimiento

Recientemente, la plataforma de servicios del modelo de inteligencia artificial Basado en Silicio se lanzó oficialmente el nuevo modelo开源 Ling-mini-2.0 desarrollado por el equipo Bai Ling de Ant Group. Este nuevo modelo muestra una alta velocidad de generación mientras mantiene un rendimiento avanzado, lo que marca un avance significativo en la capacidad de un modelo de tamaño reducido. Ling-mini-2.0 utiliza una arquitectura MoE, con un total de 16B de parámetros, pero activa solo 1.4B de parámetros por token durante la generación, lo que mejora significativamente la velocidad de generación. Diseño que no solo permite al modelo procesar

Emprendedor japonés Sakana AI: impulsar la innovación en inteligencia artificial con la sabiduría de la naturaleza

La empresa emergente japonesa Sakana AI ha aumentado su valor rápidamente a más de 10 mil millones de dólares desde su fundación en 2023, convirtiéndose en la empresa emergente más rápida en alcanzar el estado de unicorno en Japón. El fundador David Ha trabajó anteriormente en Google y él y su antiguo compañero Llions Jones crearon juntos Sakana AI. Nota de crédito de la imagen: la imagen fue generada por IA, el proveedor de licencias de imágenes es Midjourney. Ha dijo que en el actual campo de la IA, muchas empresas están recopilando grandes cantidades de datos, construyendo

Anthropic confirma el problema de disminución de la calidad del modelo Claude y lo ha solucionado

Recientemente, la empresa de inteligencia artificial Anthropic confirmó oficialmente que los modelos de la serie Claude enfrentaron algunos problemas con la calidad de las respuestas recientemente, pero esto se ha resuelto con éxito. La compañía destacó que el problema no fue debido a factores de demanda o costo, sino completamente una situación imprevista. Según se informa, la aparición de este problema está relacionada con dos fallas técnicas. La primera falla ocurrió entre el 5 de agosto y el 4 de septiembre, afectando principalmente a algunas solicitudes de Claude Sonnet4. Aunque este problema se amplió después del 29 de agosto, por suerte...

Diario de IA: Tencent libera el modelo de imagen HunyuanImage2.1; Aishikete obtiene financiación de 60 millones de dólares; Freepik lanza el modelo de imagen Seedream4.0 de Douba

¡Bienvenido al programa "Diario de IA"! Esta es su guía para explorar el mundo de la inteligencia artificial cada día. Todos los días, presentamos a usted los temas más destacados en el campo de la IA, enfocándonos en desarrolladores, ayudándole a comprender las tendencias tecnológicas y conocer las aplicaciones de productos innovadores de IA. Productos de IA recientes, haga clic para obtener más información: https://app.aibase.com/zh1. Tencent actualiza el modelo de generación de imágenes Hunyuan, Hunyuan Image 2.1, que admite escritura y resolución de 2K. Tencent Hunyuan lanzó el nuevo modelo de generación de imágenes 'Hunyuan Image 2.1 (HunyuanImage2

Tencent Open Sources HunyuanImage 2.1! Imágenes de alta resolución de 2K generadas en segundos, control preciso de múltiples sujetos con instrucciones complejas, la eficiencia del diseño de IA explota?

El equipo de Tencent Hunyuan ha presentado oficialmente el modelo de generación de imágenes a partir de texto HunyuanImage2.1, que soporta la salida de imágenes en resolución nativa de 2K (2048×2048), lo que marca un avance significativo en el campo de la creación de alta resolución en la IA de código abierto. Este modelo está disponible en Hugging Face y GitHub, permitiendo a los desarrolladores integrarlo fácilmente. HunyuanImage2.1 mejora la alineación entre texto e imagen mediante un conjunto de datos de gran escala y una estructura optimizada con múltiples modelos expertos.

Shanghai Jiao Tong University lanza MobiAgent: ¡Cada persona puede tener su propio asistente de IA! ¡Superando a GPT-5!

Recientemente, el equipo del laboratorio IPADS de la Universidad de Shanghái Jiao Tong lanzó una nueva herramienta de cadena de inteligencia móvil llamada MobiAgent, rompiendo las barreras para desarrollar asistentes inteligentes personalizados, afirmando que su rendimiento en escenarios reales es superior al de GPT-5 y otros modelos cerrados de alto nivel. La introducción de MobiAgent permite a cada persona cultivar su propio asistente de IA. Esta cadena de herramientas permite a los usuarios construir un agente móvil desde cero, incluyendo la recopilación de datos de operaciones, el entrenamiento del modelo y la implementación del modelo en un teléfono.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

¡OpenAI presenta su nuevo modelo de voz GPT-Realtime! Soporta entrada de imágenes, la interacción con IA se vuelve increíble

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Universidades de todo el mundo persiguen trabajos de IA. ¿Cómo pueden los estudiantes enfrentar el desafío de la humanidad?

El modelo de inteligencia artificial Basado en Silicio se ha lanzado, Ling-mini-2.0 de Ant Group logra un doble éxito en velocidad y rendimiento

Emprendedor japonés Sakana AI: impulsar la innovación en inteligencia artificial con la sabiduría de la naturaleza

Anthropic confirma el problema de disminución de la calidad del modelo Claude y lo ha solucionado

OpenAI entra en el mercado surcoreano, colabora con Samsung y SK Hynix para construir un futuro de inteligencia artificial

Diario de IA: Tencent libera el modelo de imagen HunyuanImage2.1; Aishikete obtiene financiación de 60 millones de dólares; Freepik lanza el modelo de imagen Seedream4.0 de Douba

Tencent Open Sources HunyuanImage 2.1! Imágenes de alta resolución de 2K generadas en segundos, control preciso de múltiples sujetos con instrucciones complejas, la eficiencia del diseño de IA explota?

Sarvam lanza el agente de inteligencia artificial Samvaad para voz y chat en WhatsApp que admite 11 idiomas indios

Walmart lanza una plataforma inteligente super WIBEY que redefine el flujo de trabajo de los desarrolladores

Shanghai Jiao Tong University lanza MobiAgent: ¡Cada persona puede tener su propio asistente de IA! ¡Superando a GPT-5!

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

¡OpenAI presenta su nuevo modelo de voz GPT-Realtime! Soporta entrada de imágenes, la interacción con IA se vuelve increíble

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Universidades de todo el mundo persiguen trabajos de IA. ¿Cómo pueden los estudiantes enfrentar el desafío de la humanidad?

El modelo de inteligencia artificial Basado en Silicio se ha lanzado, Ling-mini-2.0 de Ant Group logra un doble éxito en velocidad y rendimiento

Emprendedor japonés Sakana AI: impulsar la innovación en inteligencia artificial con la sabiduría de la naturaleza

Anthropic confirma el problema de disminución de la calidad del modelo Claude y lo ha solucionado

OpenAI entra en el mercado surcoreano, colabora con Samsung y SK Hynix para construir un futuro de inteligencia artificial

Diario de IA: Tencent libera el modelo de imagen HunyuanImage2.1; Aishikete obtiene financiación de 60 millones de dólares; Freepik lanza el modelo de imagen Seedream4.0 de Douba

Tencent Open Sources HunyuanImage 2.1! Imágenes de alta resolución de 2K generadas en segundos, control preciso de múltiples sujetos con instrucciones complejas, la eficiencia del diseño de IA explota?

Sarvam lanza el agente de inteligencia artificial Samvaad para voz y chat en WhatsApp que admite 11 idiomas indios

Walmart lanza una plataforma inteligente super WIBEY que redefine el flujo de trabajo de los desarrolladores

Shanghai Jiao Tong University lanza MobiAgent: ¡Cada persona puede tener su propio asistente de IA! ¡Superando a GPT-5!

GEO Services