OpenAI a tenu une diffusion technique à 1 heure du matin et a officiellement lancé son nouveau modèle vocal — GPT-Realtime. Ce modèle multimodal est conçu spécifiquement pour les agents de IA vocale, afin de générer des voix plus naturelles et fluides, capables d'imiter les intonations, les émotions et la vitesse de parole variées des humains. Les applications de GPT-Realtime sont nombreuses, allant du service client, à l'éducation, à la finance et à la santé, offrant un soutien puissant pour créer des assistants vocaux intelligents.
GPT-Realtime propose deux nouveaux styles vocaux uniques — Marin et Cedar — et a entièrement amélioré ses huit voix existantes. Contrairement aux modèles vocaux traditionnels, GPT-Realtime ne peut pas seulement générer des voix, mais possède également des capacités intellectuelles, de raisonnement et de compréhension. Par exemple, le modèle peut capturer avec précision les signaux non verbaux comme les rires et basculer facilement entre les langues dans les dialogues, s'adaptant ainsi aux besoins de différents scénarios.
Dans les évaluations, la précision de détection des séquences de lettres et de chiffres de GPT-Realtime a connu une amélioration significative dans divers environnements linguistiques, atteignant une précision de 82,8 % dans les évaluations de capacité de raisonnement, ce qui en fait un des meilleurs modèles d'IA vocale actuels. L'amélioration de la capacité à suivre les instructions est également un point fort de ce modèle. Les développeurs peuvent personnaliser les instructions pour améliorer les réponses du modèle. Dans le test audio MultiChallenge, la précision de suivi des instructions de GPT-Realtime est passée de 20,6 % à 30,5 %.
Aparte sa capacité à générer des voix, GPT-Realtime prend également en charge l'entrée d'images. Les développeurs peuvent combiner des images avec de l'audio ou du texte dans les conversations, permettant au modèle de dialoguer en se basant sur le contenu que l'utilisateur voit, offrant ainsi une expérience d'interaction plus personnalisée. De plus, la nouvelle fonctionnalité du Realtime API permet aux développeurs de se connecter facilement à un serveur MCP distant, simplifiant l'intégration et augmentant l'efficacité du développement.
En matière de sécurité et de confidentialité, le Realtime API dispose de mesures de protection multiples, surveillant en temps réel le contenu des conversations pour empêcher les abus. En outre, les développeurs peuvent ajouter des protections de sécurité personnalisées selon leurs besoins, garantissant ainsi la sécurité de l'environnement d'utilisation.
À partir de sa publication, tous les développeurs pourront utiliser le nouveau Realtime API et le modèle GPT-Realtime, avec une réduction de 20 % des coûts des tokens audio. De plus, les développeurs peuvent configurer flexiblement les limites de tokens intelligents pour réduire les coûts des conversations prolongées.
Points clés :
🌟 GPT-Realtime est le dernier modèle vocal multimodal lancé par OpenAI, adapté à plusieurs domaines tels que le service client et l'éducation.
📈 La capacité de raisonnement et la précision du suivi des instructions de ce modèle ont connu une amélioration significative, offrant un soutien plus puissant aux développeurs.
🔒 Le Realtime API dispose de mesures de protection de la sécurité, assurant la sécurité et la confidentialité des interactions utilisateur.