Dans le contexte de l'essor rapide de l'intelligence artificielle, OpenAI a lancé le 1er octobre 2023 sa toute nouvelle API en temps réel, conçue pour fournir aux développeurs un outil puissant pour créer des applications vocales intelligentes. Le lancement de cette API a suscité un vif intérêt, notamment lors de l'OpenAI DevDay à Singapour, où les ingénieurs de Daily.co ont partagé leurs expériences et les leçons apprises lors de son utilisation. Ces ingénieurs ont non seulement utilisé l'API en temps réel pour construire des produits, mais ont également activement participé au développement du projet open source Pipecat, visant à faciliter le travail d'un plus grand nombre de développeurs.
La fonctionnalité principale de l'API en temps réel réside dans ses exceptionnelles capacités de traitement « voix à voix », permettant aux développeurs de réaliser des interactions vocales avec une latence extrêmement faible. En convertissant la voix en texte, puis la sortie de GPT-4o en voix, les développeurs peuvent créer des expériences de conversation plus naturelles et fluides. Ce processus est relativement simple, passant de l'entrée vocale à la sortie vocale en quelques étapes : [Entrée vocale] ➔ [GPT-4o] ➔ [Sortie vocale].
Lors de la démonstration, l'équipe a souligné l'importance de la détection d'activité vocale (VAD) dans les applications vocales. Comme il est rare d'être dans un environnement parfaitement silencieux lors d'une démonstration réelle, ils recommandent d'ajouter des boutons « silence » et « réponse forcée » pour améliorer l'expérience utilisateur. De plus, l'API en temps réel prend en charge la gestion de l'état de conversation de plusieurs utilisateurs et les interruptions de la sortie du LLM par l'utilisateur, rendant les conversations plus flexibles et efficaces.
Pour permettre aux développeurs de se familiariser rapidement avec l'outil, le projet Pipecat fournit un framework Python indépendant du fournisseur pour l'API en temps réel. Ce framework prend non seulement en charge GPT-4o d'OpenAI, mais est également compatible avec plus de 40 autres API d'IA, couvrant de nombreuses options de transmission, telles que WebSockets et WebRTC, simplifiant ainsi considérablement le processus de développement. Le framework inclut également de nombreuses fonctionnalités essentielles pratiques, telles que la gestion du contexte, la gestion de l'état de l'utilisateur et le traitement des événements, aidant les développeurs à créer des applications d'interaction vocale plus intelligentes.
L'API en temps réel d'OpenAI offre aux développeurs une nouvelle façon de construire des produits vocaux intelligents. Avec la maturation de cette technologie, les futures applications d'interaction vocale deviendront plus intelligentes et plus humaines.