Microsoft ha anunciado oficialmente que su nuevo modelo de conversión de voz a voz (S2S), GPT-realtime, ha sido lanzado oficialmente en la plataforma Azure AI Foundry. Este nuevo modelo integra varias mejoras de Microsoft en tecnología de voz en un solo producto, con sus principales ventajas centradas en el procesamiento de lenguaje natural, la calidad audio superior y una mayor precisión en la ejecución de instrucciones.

Microsoft

Los desarrolladores ahora pueden acceder a GPT-realtime mediante una nueva API en tiempo real. Este modelo está diseñado para ofrecer salidas de voz más naturales y expresivas, así como una experiencia de audio de mayor calidad. Como parte de este lanzamiento, Microsoft también ha presentado dos nuevas opciones de voz: Marin y Cedar, con el objetivo de brindar efectos de síntesis de voz realistas y claros a los usuarios.

En el anuncio, Microsoft destacó varias mejoras clave en el nuevo modelo, incluyendo una mayor capacidad para llamar funciones, una mayor precisión en la ejecución de instrucciones, así como un soporte innovador para entradas de imágenes. Esta nueva función permite a los usuarios agregar imágenes en conversaciones de voz y discutirlas, logrando interacciones multimodales sin depender de flujos de video.

Además de las actualizaciones técnicas, Microsoft también ha ajustado su modelo de precios. En comparación con la versión preliminar anterior gpt-4o-realtime, el precio del lanzamiento oficial de gpt-realtime se ha reducido un 20%, y los costos se calcularán en función del uso por millón de tokens (tokens).

Este lanzamiento marca el compromiso de Microsoft por expandir sus capacidades de inteligencia artificial en tiempo real para desarrolladores y empresas en general. Al combinar la síntesis de voz expresiva, la alta calidad de audio y la entrada multimodal, GPT-realtime promete proporcionar un fuerte apoyo técnico para una amplia gama de escenarios de aplicación, desde sistemas avanzados de atención al cliente hasta herramientas innovadoras de asistencia funcional.