OpenAI, en la base del modelo GPT-4o lanzado el año pasado, ha realizado una importante actualización en su modo avanzado de voz, haciendo que las interacciones vocales sean más naturales y se asemejen más al estilo de conversación humana. Esta funcionalidad avanzada se basa en un modelo multimodal nativo capaz de responder rápidamente a las entradas de audio, logrando reacciones en tan solo 232 milisegundos y con un tiempo promedio de respuesta de 320 milisegundos, casi al mismo ritmo que las conversaciones humanas.
A principios de este año, OpenAI ya había realizado pequeñas mejoras en este modo de voz, optimizando la frecuencia de interrupciones y el manejo de diferentes acentos. Sin embargo, esta gran actualización no solo ha afinado aún más la entonación de las respuestas vocales, haciéndolas más delicadas y naturales en su ritmo, sino que también ha mejorado significativamente la gestión de pausas y énfasis, haciéndolas más expresivas. Además, el sistema actualizado puede expresar emociones con mayor precisión, incluida la empatía y el sarcasmo, lo que hace que las interacciones entre máquinas y humanos sean más cálidas e intuitivas.

Más emocionante aún es la inclusión de la función de traducción. Los usuarios de ChatGPT solo necesitan dar una simple instrucción para que el sistema realice traducciones en tiempo real durante las conversaciones, hasta que reciba una orden de detención. Este avance reducirá considerablemente la necesidad de aplicaciones específicas de traducción de voz, mejorando aún más la experiencia del usuario. Por ahora, este modo avanzado de voz solo está disponible para los suscriptores de pago.
A pesar de que estas mejoras han elevado significativamente la calidad de las interacciones vocales, OpenAI ha sido claro sobre algunas limitaciones conocidas. Por ejemplo, en ciertas situaciones, la calidad del audio podría disminuir ligeramente, y la entonación podría cambiar inesperadamente, especialmente en ciertos ajustes de voz. También ocurren ocasionalmente discrepancias con las conversaciones reales, como la aparición de publicidad, balbuceos o sonidos de fondo inesperados. OpenAI asegura que seguirá trabajando para mejorar la consistencia del audio y resolver estos problemas progresivamente.
Esta actualización no solo ha hecho que la experiencia de interacción vocal de IA sea más natural, sino que también ha sentado una base más sólida para la comunicación entre humanos e inteligencia artificial.





