Microsoft a officiellement annoncé que son nouveau modèle de conversion vocale en vocale (S2S) GPT-realtime est désormais disponible sur la plateforme Azure AI Foundry. Ce nouveau modèle intègre plusieurs améliorations apportées par Microsoft dans le domaine de la technologie vocale au sein d'un seul produit, et ses principales forces portent sur un traitement naturel du langage, une qualité audio exceptionnelle et une meilleure capacité à suivre les instructions.

Microsoft

Les développeurs peuvent désormais accéder à GPT-realtime via une nouvelle API en temps réel. Ce modèle vise à offrir des sorties vocales plus naturelles et expressives ainsi qu'une expérience audio de haute qualité. En tant que partie de cette publication, Microsoft a également lancé deux nouvelles options vocales - Marin et Cedar - conçues pour offrir un synthèse vocale réaliste et claire aux utilisateurs.

Dans son communiqué, Microsoft a souligné plusieurs améliorations clés de ce nouveau modèle, notamment une meilleure capacité à appeler des fonctions, une précision accrue dans l'exécution des instructions, ainsi qu'un soutien innovant pour les entrées d'images. Cette nouvelle fonction permet aux utilisateurs d'ajouter des images aux dialogues vocaux et d'en discuter, permettant ainsi une interaction multimodale sans dépendre d'un flux vidéo.

Au-delà des améliorations techniques, Microsoft a également ajusté son modèle de tarification. Comparé à la version bêta précédente gpt-4o-realtime, le prix du gpt-realtime en version finale a baissé de 20 %, avec un coût calculé en fonction du nombre de millions de tokens (jetons) utilisés.

Cette publication marque un pas important dans la volonté de Microsoft d'étendre ses capacités en intelligence artificielle en temps réel pour les développeurs et les entreprises. En combinant la synthèse vocale expressive, la qualité audio élevée et les entrées multimodales, GPT-realtime devrait offrir un soutien technique puissant pour une gamme d'applications allant des systèmes avancés de support client aux outils d'assistance innovants.