Récemment, Google a annoncé le lancement de DolphinGemma, un grand modèle linguistique visant à aider les scientifiques à mieux comprendre les modes de communication des dauphins. Cette nouvelle technologie est propulsée par Gemini2.5Pro Experimental et développée en étroite collaboration avec le Georgia Institute of Technology et son projet sur les dauphins sauvages (WDP). L'objectif du WDP est d'enregistrer et d'analyser, par le biais d'observations non invasives de longue durée, le comportement naturel et la structure sociale des dauphins tachetés de l'Atlantique (Stenella frontalis), en particulier leurs schémas de communication.
Au fil des ans, le WDP a accumulé une quantité importante de données, permettant d'associer des sons de dauphins spécifiques à leurs comportements. Par exemple, les sifflements uniques émis par les mères et leurs petits lors des retrouvailles, les cris lors des combats, et le « bourdonnement » fréquemment utilisé lors des poursuites de requins. Google indique que l'analyse de la communication complexe des dauphins est un défi, et que les données du WDP offrent une excellente opportunité pour l'application de l'intelligence artificielle.
DolphinGemma est développé sur la base de ces données. Le modèle utilise le fractionneur SoundStream de Google pour décomposer les sons des dauphins en unités audio maniables. L'architecture du système entier est conçue pour comprendre des séquences sonores complexes, comprenant environ 400 millions de paramètres et capable de fonctionner nativement sur les téléphones Pixel des chercheurs du WDP.
Contrairement aux modèles d'apprentissage automatique traditionnels, DolphinGemma se concentre sur les entrées et sorties audio, recevant les sons naturels des dauphins et prédisant le son suivant le plus probable, d'une manière similaire à la façon dont les grands modèles linguistiques comprennent la parole humaine. Ce processus peut être comparé à une fonction de « saisie semi-automatique » pour la communication des dauphins. DolphinGemma est capable d'identifier les schémas et les structures des sons des dauphins, offrant ainsi de nouvelles possibilités de recherche aux scientifiques.
De plus, avant le lancement de DolphinGemma, l'équipe CHAT (Whale Acoustic Hearing Enhancement Telemetry) explorait la possibilité d'une communication bidirectionnelle avec les dauphins. L'objectif de CHAT n'est pas de déchiffrer complètement le langage des dauphins, mais de créer un vocabulaire interactif simple et facile à utiliser. En associant des sons synthétiques à des objets spécifiques appréciés des dauphins (comme les algues ou les herbes marines), l'équipe de recherche espère que les dauphins apprendront à imiter ces sons et à « demander » activement ces objets.
Google indique que DolphinGemma sera publié en tant que modèle ouvert cet été, afin de fournir aux chercheurs du monde entier des outils pour exploiter leurs propres ensembles de données acoustiques et ainsi mieux comprendre ces mammifères marins intelligents.