Dans les mises à jour de développement récentes, Google a mis à jour la version Gemini2.5, marquant une avancée majeure dans les technologies d'audio conversationnel et génératif. Gemini2.5 est un système IA multimodal capable de comprendre et de générer nativement du texte, des images, de l'audio, de la vidéo et du code, améliorant ainsi l'expérience d'interaction entre l'utilisateur et l'IA.
La fonction de dialogue audio en temps réel de Gemini2.5 rend l'échange humain-machine plus naturel. Les dialogues humains impliquent souvent l'intonation, l'accent et des sons non verbaux comme les rires, tous ces détails pouvant être reproduits grâce à la technologie de génération audio de Gemini. Sa faible latence permet une communication fluide et naturelle, et l'utilisateur peut ajuster le style de la conversation via des phrases en langage naturel, comme choisir différents accents et tons, voire communiquer à voix basse.
Dialogue audio en temps réel
Les échanges humains sont riches et détaillés, exprimant des significations non seulement par les mots mais aussi par l'intonation, l'accent et des sons non verbaux tels que les rires. Gemini2.5 vise à réaliser une communication efficace et en temps réel via l'audio, ses fonctionnalités de dialogue audio comprennent :
- Conversation naturelle: fournit une interaction vocale de haute qualité, avec une expression appropriée et une prosodie fluide, avec une faible latence.
- Contrôle du style: les utilisateurs peuvent personnaliser le ton, l'accent et l'expression émotionnelle de la conversation via des prompts en langage naturel, y compris des dialogues chuchotés.
- Intégration d'outils: au cours du dialogue, Gemini2.5 peut appeler des outils et fonctions pour obtenir des informations en temps réel depuis des sources telles que Google Search, augmentant ainsi l'utilité des conversations.
- Contexte de dialogue: ce système peut identifier et ignorer les bruits de fond et les conversations non pertinentes pour répondre à des moments appropriés.
- Compréhension audio et vidéo: prend en charge les flux audio et vidéo en temps réel, permettant de discuter du contenu vidéo ou des informations partagées à l'écran.
- Support multilingue: supporte plus de 24 langues, permettant de passer flexiblement d'une langue à une autre dans une même conversation.
- Dialogue émotionnel: réagit en fonction de l'intonation de l'utilisateur pour comprendre les différences émotionnelles entre les expressions verbales.
- Dialogue de pensée avancée: grâce à sa capacité à raisonner, il améliore la fluidité et l'intelligence des dialogues, particulièrement performant sur des questions complexes.
Technologie de conversion texte-voix contrôlable
La technologie de conversion texte-voix (TTS) de Gemini2.5 a connu une nouvelle percée : non seulement les utilisateurs peuvent générer des sorties vocales naturelles, mais ils peuvent également exercer un contrôle inédit sur l'audio. Les utilisateurs peuvent générer du contenu allant de courts extraits à des narrations longues, en contrôlant précisément le style, l'intonation, l'émotion et l'expression, tout cela modifiable via des prompts en langage naturel.
- Expression dynamique: peut lire du texte de manière vivante, applicable aux poèmes, à la présentation de nouvelles et aux récits, en soutenant des émotions et des accents spécifiques.
- Contrôle de la vitesse et de la prononciation: les utilisateurs peuvent ajuster la vitesse de la voix et s'assurer que les mots spécifiques sont correctement prononcés.
- Génération de dialogues à plusieurs voix: peut générer des audios de dialogues à deux personnes en fonction des entrées textuelles, rendant le contenu plus attrayant.
- Génération audio multilingue: crée facilement du contenu audio en plusieurs langues, avec un support pour plus de 24 langues.
Pendant le processus de développement de Gemini2.5, Google a mené une évaluation approfondie des risques potentiels et adopté des stratégies d'atténuation correspondantes. Toutes les sorties audio sont intégrées avec une technologie appelée SynthID pour assurer la transparence et la reconnaissance des sorties audio générées par l'IA.
Gemini2.5 offre aux développeurs une gamme complète de fonctionnalités audio natives, leur permettant de construire des applications plus interactives via Google AI Studio ou les API Gemini de Vertex AI. Les développeurs peuvent tester les dialogues audio natifs en préversion Flash de Gemini2.5 dans l'onglet Flux de Google AI Studio, ou opter pour la génération de texte vers voix contrôlable, promouvant ainsi des innovations dans les applications telles que les annonces, les histoires, les podcasts et les jeux vidéo.