Récemment, Google a de nouveau fait parler de lui dans le domaine de l'intelligence artificielle en annonçant la sortie de trois nouvelles variantes basées sur le modèle Gemma : MedGemma, SignGemma et DolphinGemma. Ces modèles ciblent respectivement les domaines médical, la traduction des signes et l'étude du langage des dauphins, montrant ainsi un grand potentiel pour l'application de l'IA dans divers secteurs. Suivez-nous alors que nous vous présentons plus en détail les atouts et perspectives d'application de ces trois modèles.
MedGemma : une révolution dans l'IA médicale pour un diagnostic précis
MedGemma est un modèle IA spécialement conçu pour le domaine médical, proposant deux versions pour répondre à différentes besoins. Le modèle multimodal de 4 milliards peut traiter des tâches combinant images et texte. Pré-entraîné sur des données médicales comme les radiographies thoraciques, les images dermatologiques, les images oculaires et des coupes pathologiques, il affiche une grande capacité dans des tâches comme le diagnostic d'images médicales, la génération de rapports et la triage des patients. Le modèle de raisonnement textuel de 27 milliards est quant à lui spécialisé dans le traitement de texte pur, offrant une meilleure capacité de raisonnement pour des scénarios nécessitant une compréhension approfondie, comme l'analyse de dossiers médicaux ou les questions-réponses médicales. Les deux modèles peuvent fonctionner efficacement sur une seule carte GPU, offrant aux développeurs une flexibilité de développement.
Google a indiqué que MedGemma sera diffusé via son programme Health AI Developer Foundations, visant à accélérer le développement d'applications médicales. À l'avenir, les développeurs pourront utiliser ces modèles pour créer des outils médicaux plus intelligents, injectant ainsi de nouvelles énergies dans la médecine personnalisée.
SignGemma : briser les barrières de communication, une étape de plus vers la traduction des signes
SignGemma est un modèle open source conçu pour la traduction des signes, avec un accent particulier sur la traduction de la langue des signes américaine (ASL) vers l'anglais. Ce modèle transforme les gestes des signes en texte oral, offrant une nouvelle manière d'interaction aux personnes sourdes et malentendantes ainsi qu'aux développeurs. Selon les informations, SignGemma se distingue par une excellente compréhension des signes, surnommé « jusqu'à présent le modèle de compréhension des signes le plus puissant ».
Google prévoit de renforcer le support multilingue de SignGemma à l'avenir, facilitant ainsi la communication sans obstacle dans toute la communauté mondiale des personnes sourdes. Les développeurs peuvent s'appuyer sur ce modèle pour créer des applications innovantes, telles que des outils de traduction des signes en temps réel ou des plateformes éducatives, apportant ainsi davantage de commodités aux personnes sourdes.
DolphinGemma : déchiffrer le langage des dauphins, explorer la communication interspécifique
DolphinGemma est un modèle innovant développé en collaboration avec Wild Dolphin Project (WDP) et Georgia Institute of Technology. Il vise à analyser et générer les sons complexes des dauphins. Basé sur des données acoustiques accumulées sur 40 ans de dauphins tachetés du nord-ouest de l'Atlantique, ce modèle peut identifier des motifs sonores spécifiques comme les sifflets signataires et les sons pulsés, et prédire des séquences sonores, similairement au mécanisme de prédiction des modèles linguistiques humains.
DolphinGemma a été intégré dans le système CHAT (Cetacean Hearing Augmentation Telemetry) de WDP, permettant une analyse en temps réel des sons des dauphins via une interface mobile. Les chercheurs ont même tenté d'interagir simplement avec les dauphins en synthétisant des sifflets, comme demander à un dauphin d'interagir avec un objet spécifique. Google prévoit de rendre DolphinGemma open source en été 2025, permettant à davantage de chercheurs d'utiliser le modèle pour d'autres espèces de cétacés, accélérant ainsi la recherche sur la communication interspécifique.
Open Source et avenir : l'IA stimule l'innovation transversale
Google souligne que ces trois modèles reposent sur l'architecture Gemma, offrant à la fois efficacité et adaptabilité. MedGemma est désormais accessible via le programme Health AI Developer Foundations, tandis que SignGemma et DolphinGemma seront également progressivement rendus open source à l'avenir. Cependant, les termes non standard des licences Gemma suscitent des inquiétudes chez certains développeurs concernant les applications commerciales. À l'avenir, Google devra probablement optimiser ses politiques de licence pour maximiser le potentiel commercial des modèles.
Un double succès entre technologie et valeur sociale
Que ce soit pour le diagnostic médical, la traduction des signes ou l'étude du langage des dauphins, les trois variantes des modèles Gemma montrent une infinité de possibilités pour résoudre des problèmes concrets et explorer des domaines inconnus grâce à l'IA. MedGemma apporte des outils efficaces à l'industrie médicale, SignGemma pousse la communication sans obstacles, et DolphinGemma ouvre une nouvelle fenêtre pour la communication entre l'homme et la nature. L'AIbase pense que ces innovations reflètent non seulement l'aspect prospectif de la technologie, mais aussi l'importance capitale de l'IA dans la création de valeur sociale et dans la recherche scientifique.