Google a officiellement lancé et rendu open source le nouveau modèle d'intelligence artificielle multimodal de bord, Gemma3n, ce vendredi matin. Ce produit révolutionnaire apporte aux appareils de bord tels que les téléphones portables, les tablettes et les ordinateurs portables des fonctionnalités multimodales puissantes qui n'étaient auparavant accessibles qu'en nuage.

Caractéristiques principales : petite taille, grande capacité

Gemma3n propose deux versions, E2B et E4B. Bien que leurs paramètres initiaux soient respectivement de 5 milliards et 8 milliards, grâce à une innovation architecturale, leur utilisation de mémoire est équivalente à celle des modèles traditionnels de 2 milliards et 4 milliards de paramètres, nécessitant seulement 2 Go et 3 Go de mémoire pour fonctionner. Ce modèle prend nativement en charge le traitement des entrées multimodales telles que les images, les audio, les vidéos et les textes, et prend en charge la compréhension multimodale dans 140 langues de texte et 35 langues.

Notons que la version E4B a obtenu un score supérieur à 1300 sur l'évaluation LMArena, devenant ainsi le premier modèle en dessous de 10 milliards de paramètres à atteindre cet objectif. Elle montre une amélioration significative dans les domaines des langues multiples, des mathématiques, du codage et de la raisonnement.

QQ20250627-101207.png

Technologies innovantes : quatre innovations architecturales

Architecture MatFormer : Gemma3n utilise une architecture Matryoshka Transformer nouvelle, permettant d'inclure plusieurs tailles dans un seul modèle, comme des poupées russes. Pendant l'entraînement du modèle E4B, le sous-modèle E2B est optimisé simultanément, offrant aux développeurs des choix de performance flexibles. Grâce à la technologie Mix-n-Match, les utilisateurs peuvent créer des modèles de taille personnalisée entre E2B et E4B.

Technologie PLE (Embeddings par couche) : Cette innovation permet à la plupart des paramètres d'être chargés et calculés sur le CPU, tandis que seuls les poids clés du Transformer doivent être stockés dans la mémoire de l'accélérateur, améliorant ainsi l'efficacité de la mémoire sans affecter la qualité du modèle.

Partage du cache KV : Optimisé pour le traitement de contenus longs, cette technologie de partage du cache clé-valeur augmente les performances de pré-remplissage de deux fois par rapport à Gemma34B, accélérant significativement le temps de génération du premier token pour les séquences longues.

Encodeur avancé : En matière d'audio, un encodeur basé sur le modèle vocal universel (USM) est utilisé, prenant en charge la reconnaissance automatique de la parole et la traduction vocale, capable de traiter des fragments audio de 30 secondes. En ce qui concerne la vision, un encodeur MobileNet-V5-300M est intégré, supportant diverses résolutions d'entrée, avec une vitesse de traitement de 60 images par seconde sur Google Pixel.

QQ20250627-101357.png

Fonctionnalités pratiques et scénarios d'application

Gemma3n se distingue particulièrement dans la traduction vocale, notamment pour les conversions entre l'anglais et l'espagnol, le français, l'italien, le portugais, etc. Le codeur visuel MobileNet-V5, grâce à une technologie d'enseignement par distillation avancée, réalise une accélération de 13 fois par rapport au modèle de base, avec une réduction de 46 % des paramètres et une diminution de 4 fois de l'utilisation de la mémoire, tout en maintenant une plus grande précision.

Écosystème open source et perspectives de développement

Google a rendu le modèle et les poids disponibles sur la plateforme Hugging Face, avec une documentation détaillée et des guides de développement. Depuis le lancement du premier modèle Gemma l'année dernière, le nombre total de téléchargements de cette série dépasse désormais 160 millions, montrant un écosystème de développeurs dynamique.

Le lancement de Gemma3n marque une nouvelle étape dans le développement de l'intelligence artificielle sur les appareils de bord, en descendant les capacités multimodales de niveau cloud vers les appareils des utilisateurs, ouvrant ainsi de nouvelles possibilités dans les applications mobiles, les appareils intelligents, etc.