Lors de la conférence Google I/O 2025, Google a officiellement lancé le modèle multimodal léger Gemma3n et a annoncé l'extension continue de la famille de modèles Gemma, avec l'introduction de MedGemma et SignGemma pour les scénarios médicaux et d'accessibilité.

Comme représentant des tendances de l'IA locale, Gemma3n est conçu pour les appareils à faible puissance tels que les smartphones, ordinateurs portables et tablettes, et possède la capacité de traiter du texte, de l'audio, des images et des vidéos. Selon Google, Gemma3n peut fonctionner de manière fluide même sur des appareils ayant moins de 2 Go de mémoire vive, démontrant ainsi ses avantages d'architecture efficace. Le modèle était disponible en préversion pour les développeurs dès le jour de sa publication et partage la même architecture sous-jacente que Gemini Nano.

QQ20250521-094734.png

Google souligne que les avantages de légèreté et de confidentialité de Gemma3n en font un choix idéal pour les applications d'IA hors ligne. Contrairement aux modèles volumineux nécessitant une dépendance au cloud, les modèles d'IA locaux sont non seulement plus rapides à répondre et moins coûteux, mais protègent également les données des utilisateurs en évitant leur transmission vers des serveurs distants, ce qui est particulièrement utile dans les scénarios sensibles à la confidentialité.

Dans le domaine de la santé, Google, via son fonds de développement d'IA médicale, a introduit MedGemma – un ensemble de modèles ouverts pour le texte et les images liés à la santé. Selon les informations fournies, MedGemma possède une excellente capacité d'analyse multimodale et permet aux développeurs de créer des outils d'IA plus précis dans des scénarios tels que la reconnaissance d'images médicales et le traitement de dossiers textuels de patients.

De plus, Google a prévisualisé le modèle SignGemma, conçu pour la reconnaissance des signes manuels, capable de traduire la langue des signes américaine (ASL) en texte anglais, visant à aider les développeurs à créer des outils de communication plus amicaux pour les personnes sourdes et malentendantes. Selon Google, il s'agit "jusqu'à présent du modèle de reconnaissance des signes le plus performant".

Malgré les inquiétudes de certains développeurs concernant l'utilisation commerciale en raison des termes de licence non standard du modèle Gemma, la série Gemma continue de susciter un grand enthousiasme au sein de la communauté des développeurs, avec des téléchargements dépassant des millions de fois.

Avec l'expansion continue de la famille de modèles Gemma, Google pousse les modèles d'IA ouverts vers de nouveaux espaces d'application dans les domaines de la protection de la vie privée sur les appareils locaux, la santé et l'accessibilité.