Publication de la version 2.5 de Gemini avec des fonctionnalités audio natives, les dialogues AI deviennent plus naturels

AIbase基地

Publié leActualités IA · 7 minutes de lecture · Jun 5, 2025

Dans les mises à jour de développement récentes, Google a mis à jour la version Gemini2.5, marquant une avancée majeure dans les technologies d'audio conversationnel et génératif. Gemini2.5 est un système IA multimodal capable de comprendre et de générer nativement du texte, des images, de l'audio, de la vidéo et du code, améliorant ainsi l'expérience d'interaction entre l'utilisateur et l'IA.

La fonction de dialogue audio en temps réel de Gemini2.5 rend l'échange humain-machine plus naturel. Les dialogues humains impliquent souvent l'intonation, l'accent et des sons non verbaux comme les rires, tous ces détails pouvant être reproduits grâce à la technologie de génération audio de Gemini. Sa faible latence permet une communication fluide et naturelle, et l'utilisateur peut ajuster le style de la conversation via des phrases en langage naturel, comme choisir différents accents et tons, voire communiquer à voix basse.

Dialogue audio en temps réel

Les échanges humains sont riches et détaillés, exprimant des significations non seulement par les mots mais aussi par l'intonation, l'accent et des sons non verbaux tels que les rires. Gemini2.5 vise à réaliser une communication efficace et en temps réel via l'audio, ses fonctionnalités de dialogue audio comprennent :

Conversation naturelle: fournit une interaction vocale de haute qualité, avec une expression appropriée et une prosodie fluide, avec une faible latence.
Contrôle du style: les utilisateurs peuvent personnaliser le ton, l'accent et l'expression émotionnelle de la conversation via des prompts en langage naturel, y compris des dialogues chuchotés.
Intégration d'outils: au cours du dialogue, Gemini2.5 peut appeler des outils et fonctions pour obtenir des informations en temps réel depuis des sources telles que Google Search, augmentant ainsi l'utilité des conversations.
Contexte de dialogue: ce système peut identifier et ignorer les bruits de fond et les conversations non pertinentes pour répondre à des moments appropriés.
Compréhension audio et vidéo: prend en charge les flux audio et vidéo en temps réel, permettant de discuter du contenu vidéo ou des informations partagées à l'écran.
Support multilingue: supporte plus de 24 langues, permettant de passer flexiblement d'une langue à une autre dans une même conversation.
Dialogue émotionnel: réagit en fonction de l'intonation de l'utilisateur pour comprendre les différences émotionnelles entre les expressions verbales.
Dialogue de pensée avancée: grâce à sa capacité à raisonner, il améliore la fluidité et l'intelligence des dialogues, particulièrement performant sur des questions complexes.

Technologie de conversion texte-voix contrôlable

La technologie de conversion texte-voix (TTS) de Gemini2.5 a connu une nouvelle percée : non seulement les utilisateurs peuvent générer des sorties vocales naturelles, mais ils peuvent également exercer un contrôle inédit sur l'audio. Les utilisateurs peuvent générer du contenu allant de courts extraits à des narrations longues, en contrôlant précisément le style, l'intonation, l'émotion et l'expression, tout cela modifiable via des prompts en langage naturel.

Expression dynamique: peut lire du texte de manière vivante, applicable aux poèmes, à la présentation de nouvelles et aux récits, en soutenant des émotions et des accents spécifiques.
Contrôle de la vitesse et de la prononciation: les utilisateurs peuvent ajuster la vitesse de la voix et s'assurer que les mots spécifiques sont correctement prononcés.
Génération de dialogues à plusieurs voix: peut générer des audios de dialogues à deux personnes en fonction des entrées textuelles, rendant le contenu plus attrayant.
Génération audio multilingue: crée facilement du contenu audio en plusieurs langues, avec un support pour plus de 24 langues.

Pendant le processus de développement de Gemini2.5, Google a mené une évaluation approfondie des risques potentiels et adopté des stratégies d'atténuation correspondantes. Toutes les sorties audio sont intégrées avec une technologie appelée SynthID pour assurer la transparence et la reconnaissance des sorties audio générées par l'IA.

Gemini2.5 offre aux développeurs une gamme complète de fonctionnalités audio natives, leur permettant de construire des applications plus interactives via Google AI Studio ou les API Gemini de Vertex AI. Les développeurs peuvent tester les dialogues audio natifs en préversion Flash de Gemini2.5 dans l'onglet Flux de Google AI Studio, ou opter pour la génération de texte vers voix contrôlable, promouvant ainsi des innovations dans les applications telles que les annonces, les histoires, les podcasts et les jeux vidéo.

Qwen Chat Memory, une nouvelle fonctionnalité de Qwen

La société Alibaba a lancé la fonctionnalité Qwen Chat Memory. Les utilisateurs peuvent l'expérimenter sur chat.qwen.ai. Cette fonctionnalité permet à l'assistant intelligent d'avoir une mémoire à long terme, de stocker les préférences, les habitudes et le contenu des conversations historiques des utilisateurs, et de maintenir un contexte cohérent lors de plusieurs échanges, afin d'obtenir une interaction personnalisée plus intelligente.

Volcán Engine lance la version mise à jour de Dabao modèle 1.6, le volume quotidien de Tokens dépasse 30 milliards!

Volcán Engine met à niveau la matrice du modèle Dabao, lance le service "routage intelligent des modèles", aidant les entreprises à entrer dans l'ère de l'IA Agentic. Les principales mises à niveau comprennent le modèle Dabao 1.6 amélioré avec une capacité d'inférence accrue, qui prend en charge quatre longueurs de pensée, ainsi que trois nouveaux modèles : 1.6lite, synthèse vocale 2.0 et copie vocale 2.0, complétant ainsi l'écosystème produit.

Google lance le modèle de génération vidéo Veo 3.1 : nouvelles fonctionnalités audio et capacité d'édition précise

Google met à niveau le modèle de génération vidéo Veo 3.1, améliorant la qualité des sorties audio, la précision du contrôle d'édition et la qualité de la conversion d'images en vidéos, permettant de générer des vidéos plus réalistes et de répondre avec précision aux instructions. Les nouvelles fonctionnalités permettent d'ajouter des objets dans les vidéos et de les adapter automatiquement au style visuel, une fonction pour supprimer des objets sera bientôt disponible dans l'outil Flow, afin d'améliorer la flexibilité de l'édition.

Meta investit 1,5 milliard de dollars au Texas pour construire un centre de données axé sur l'IA, avec un taux de recyclage des ressources en eau de 200 %

Meta a annoncé un investissement de 1,5 milliard de dollars au Texas à El Paso pour construire un nouveau centre de données optimisé par l'IA, qui sera le 29e au monde et le troisième au Texas. Ce centre vise à répondre à la croissance des applications de l'intelligence artificielle. Sa capacité est conçue pour être élargie jusqu'à 1 gigawatt, et son alimentation électrique suffira à alimenter une ville de la taille de San Francisco pendant une journée.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Publication de la version 2.5 de Gemini avec des fonctionnalités audio natives, les dialogues AI deviennent plus naturels

AIbase基地

Dialogue audio en temps réel

Technologie de conversion texte-voix contrôlable

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Qwen Chat Memory, une nouvelle fonctionnalité de Qwen

Gemini 3.0 Pro de Google est envoyé en petit nombre : renforcement des capacités d'inférence, lancement officiel prévu à la fin du mois

Journal AI : Google lance Veo 3.1 ; Qwen propose une fonction de mémoire de discussion ; Sora2 permet aux utilisateurs gratuits de générer des vidéos de 15 secondes

Nouvelle avancée de l'assistant IA ! Qwen Chat Memory est désormais disponible, il se souvient de chaque conversation que vous avez eue !

Le CLI Qoder arrive ! Alipay crée le plus rapide assistant de programmation par IA, avec une réponse de seulement 200 millisecondes

Volcán Engine lance la version mise à jour de Dabao modèle 1.6, le volume quotidien de Tokens dépasse 30 milliards!

Google lance le modèle de génération vidéo Veo 3.1 : nouvelles fonctionnalités audio et capacité d'édition précise

La standardisation en Chine accueille des experts en IA ! Le premier modèle de norme en Chine, la version Internet Tongdao, est lancée, mettant fin au problème de recherche de normes !

AMD atteint à nouveau des sommets ! Un partenariat avec Oracle pour déployer 50 000 puces IA, un engagement total dans le marché de l'IA

Meta investit 1,5 milliard de dollars au Texas pour construire un centre de données axé sur l'IA, avec un taux de recyclage des ressources en eau de 200 %

GEO Services