Le mode vocal avancé (Advanced Voice Mode) d'OpenAI avec GPT-4o a récemment subi une mise à jour majeure. Il peut maintenant interagir de manière plus naturelle et dispose d'une fonctionnalité fascinante : chanter. Bien que les performances en chanson soient encore un peu rudimentaires, cette avancée ouvre sans aucun doute de nouvelles perspectives pour les capacités d'interaction multimodale des IA. AIbase compile les informations les plus récentes pour vous expliquer l'évolution du mode vocal de GPT-4o et son potentiel.

image.png

Lancement de la fonction chant : l'IA peut aussi « se mettre à chanter »

Les dernières informations montrent que le mode vocal avancé de GPT-4o est désormais capable de chanter. Les utilisateurs peuvent demander à l'IA de chanter des chansons, y compris certaines sous droits d'auteur. Cette fonction permet à GPT-4o de générer des mélodies, des paroles ou d'imiter des styles spécifiques de chant selon les besoins des utilisateurs, ajoutant ainsi une touche ludique à l'expérience d'interaction. Bien que les performances vocales nécessitent encore des améliorations, AIbase observe que l'introduction de cette fonction marque une nouvelle tentative de GPT-4o dans le domaine de la génération audio.

Interaction multimodale renforcée : plus naturel, plus émotionnel

Le mode vocal avancé de GPT-4o est réputé pour sa capacité à traiter directement les données vocales, contrairement aux modes vocaux traditionnels qui dépendent de la conversion vocale en texte puis à nouveau en vocal. Cette nouvelle approche réduit considérablement le délai de réponse, qui n'est que de 320 millisecondes en moyenne. De plus, GPT-4o est capable de capter des indices non verbaux tels que le débit et le ton de la voix de l'utilisateur et répondre avec une voix plus expressive. Il supporte également des interruptions de dialogue à tout moment, offrant une expérience de conversation proche de celle entre humains.

Fonctionnalités phares : rire, pleurer, tout est maîtrisé

Outre la capacité de chanter, le mode vocal avancé de GPT-4o peut générer des rires, des pleurs et autres expressions émotionnelles selon les instructions. Cela enrichit encore davantage les scénarios d'interaction. Par exemple, les utilisateurs peuvent demander à l'IA de répondre avec un ton dramatique, humoristique ou en imitant une voix de personnage animé ou célèbre. Cette flexibilité lui confère un grand potentiel dans les domaines de l’éducation, du divertissement et de la génération de contenu créatif.

Limites actuelles : le chant nécessite encore du perfectionnement

Malgré l'introduction de la fonction de chant, les performances vocales de GPT-4o ne sont pas encore professionnelles. Pendant les tests, l'IA semble manquer de fluidité lorsqu'elle traite des mélodies complexes ou des tons élevés. Certaines utilisations ont signalé que la qualité vocale est inférieure à celle d'autres modèles d’IA comme Pi AI ou Siri, en raison d’un taux d’échantillonnage plus bas qui entraîne une compression sonore. OpenAI a indiqué que l'introduction de cette fonction vise à explorer les limites de la génération audio, et qu'elle continuera d'améliorer les performances dans le futur.

Sécurité et respect des droits d'auteur : une innovation avec limites

Pour respecter les droits d’auteur, OpenAI a mis en place un mécanisme de filtrage strict sur les sorties vocales de GPT-4o, limitant la génération de contenu musical protégé par des droits d’auteur. Toutefois, des informations récentes montrent que certains utilisateurs ont réussi à faire chanter l’IA sur des chansons protégées, suscitant des discussions sur les limites du droit d’auteur. De plus, GPT-4o présente un taux de refus élevé pour certaines tâches audio comme la notation automatique de chants ou la synthèse vocale, probablement en raison du risque de générer du contenu non autorisé ou du manque de critères objectifs.

Un nouveau chapitre pour les IA vocales

Mises à jour du mode vocal avancé de GPT-4o, notamment l'introduction de la fonction de chant, marquent une avancée continue d'OpenAI dans le domaine des IA multimodales. Bien que les performances en chant nécessitent encore des ajustements, ses capacités de bas délai, interaction naturelle et expression émotionnelle surpassent nettement celles des assistants vocaux traditionnels comme Siri et Alexa. AIbase pense que, grâce à des optimisations futures de la qualité audio et des mécanismes de gestion des droits d’auteurs, GPT-4o pourrait déclencher une nouvelle vague d’applications dans les domaines de l’éducation, du divertissement et du service client.

Conclusion

La fonction de chant de GPT-4o apporte plus de fun et de possibilités dans les interactions IA. Bien qu’elle nécessite encore des ajustements techniques, son importance innovatrice ne doit pas être négligée. Du faible délai de dialogue à l’expression émotionnelle, GPT-4o redéfinit les frontières de l’interaction homme-machine.