À la conférence Google I/O 2025 récemment organisée, Google a discrètement lancé un projet open source appelé Google AI Edge Gallery, une application d'IA générative entièrement locale basée sur le tout dernier modèle Gemma3n. Cette application intègre des capacités multimodales pour traiter du texte, des images et des sons. Avec des performances efficaces de l'IA côté terminal et ses caractéristiques open source, ce projet offre aux développeurs un modèle idéal pour construire des applications d'IA localisées.
Google AI Edge Gallery : Un nouveau standard open source pour l'IA côté terminal
Google AI Edge Gallery est une application expérimentale conçue pour Android (une version iOS sera bientôt disponible). Elle permet aux utilisateurs de faire fonctionner divers modèles d'IA open source provenant de Hugging Face directement sur leurs appareils locaux sans connexion internet. Le projet est sous licence Apache2.0 et son code est disponible sur GitHub, permettant aux développeurs de l'utiliser et de le modifier librement, ce qui abaisse considérablement les barrières à l'entrée pour le développement d'applications d'IA côté terminal. AIbase a remarqué que ce projet ne montre pas seulement les derniers résultats de Google dans le domaine de l'IA côté terminal, mais fournit également un modèle rapide à prendre en main pour aider les développeurs à créer des applications d'IA personnalisées.
Le point culminant de ce projet repose sur le modèle Gemma3n, un modèle de langue multilingue optimisé pour les appareils mobiles avec 2B et 4B paramètres, supportant l'entrée de texte, d'images, d'audio et de vidéo, doté d'une capacité de déduction locale puissante. Que ce soit pour la transcription vocale en environnement hors ligne, l'analyse d'images ou des interactions en temps réel, Google AI Edge Gallery montre le grand potentiel de l'IA côté terminal.
Capacités multimodales : prise en charge complète du texte, des images et de l'audio
Google AI Edge Gallery intègre les fonctionnalités multimodales de Gemma3n, permettant aux utilisateurs de charger et de traiter des images et des fichiers audio. Par exemple, un technicien sur le terrain peut prendre une photo d'un équipement et poser une question, l'IA génère alors une réponse précise basée sur le contenu de l'image ; un employé de l'entrepôt peut mettre à jour les données d'inventaire via la reconnaissance vocale, réalisant ainsi une interaction intelligente "hands-free". De plus, Gemma3n prend en charge une reconnaissance vocale de haute qualité (ASR) et des fonctions de traduction vocale, capable de gérer des entrées multimodales complexes, offrant ainsi davantage de possibilités pour le développement d'applications interactives.
AIbase a appris que les versions de 2B et 4B paramètres de Gemma3n supportent déjà l'entrée de texte, d'images, de vidéos et d'audio, et que les modèles correspondants sont désormais disponibles sur Hugging Face. Les fonctions de traitement audio seront également lancées prochainement. Contrairement aux modèles cloud traditionnels, la conception miniaturisée de Gemma3n lui permet de s'exécuter de manière fluide sur des appareils à ressources limitées tels que les smartphones et les tablettes. Bien qu'il ne pèse que 529 MB, il peut traiter du contenu d'une page entière à une vitesse de préremplissage de 2585 tokens par seconde.
Open source et efficacité : un design convivial pour les développeurs
Google AI Edge Gallery fournit un environnement léger pour l'exécution de modèles grâce au runtime LiteRT et à l'API de déduction LLM, permettant aux développeurs de choisir et de basculer entre différents modèles provenant de la communauté Hugging Face. Le projet intègre également la génération renforcée par recherche (RAG) et des fonctionnalités de rappel de fonction, permettant aux développeurs d'injecter des données spécifiques dans une application sans avoir besoin de microajuster le modèle. Par exemple, une entreprise peut utiliser la technologie RAG pour intégrer sa base de connaissances interne avec l'IA afin de fournir des services de questions-réponses personnalisés.
De plus, Gemma3n prend en charge la dernière technologie de quantification int4, réduisant la taille du modèle de 2,5 à 4 fois par rapport au format bf16 tout en réduisant sensiblement la latence et l'utilisation de la mémoire. Ce schéma de quantification efficace garantit des performances exceptionnelles de l'IA sur des appareils à faible consommation d'énergie. Les développeurs peuvent utiliser les tutoriels Colab fournis par Google pour effectuer rapidement le microajustement, la conversion et le déploiement du modèle, simplifiant considérablement le processus de développement.
Exécution hors ligne et protection de la vie privée : les avantages uniques de l'IA côté terminal
La capacité d'exécution complètement hors ligne de Google AI Edge Gallery est l'une de ses principales caractéristiques. Tous les traitements IA se font directement sur l'appareil, sans nécessiter de connexion réseau ou de service Google Play, garantissant ainsi la confidentialité des données et une réponse rapide. Cela est particulièrement important pour des scénarios sensibles à la vie privée et nécessitant une réactivité immédiate, comme dans les soins médicaux ou la maintenance industrielle. Par exemple, un technicien sur le terrain peut interagir avec l'IA via la voix ou des images dans un environnement sans réseau pour diagnostiquer des équipements ou enregistrer des données.
AIbase pense que ce mode d'exécution hors ligne améliore non seulement l'expérience utilisateur, mais réduit également la dépendance des entreprises à l'égard des capacités cloud, réduisant ainsi les coûts de fonctionnement. La nature open source du projet accorde également aux développeurs la liberté de personnaliser leurs propres outils. Que ce soit pour créer des assistants éducatifs, des outils de soutien médical ou explorer des expériences interactives innovantes, Google AI Edge Gallery offre une base solide.
Influence industrielle : popularisation et défis de l'IA côté terminal
Lancement de Google AI Edge Gallery marque une étape supplémentaire vers la popularisation de l'IA côté terminal. Contrairement à EVI3 d'Hume AI et à Conversational AI2.0 d'ElevenLabs, Google AI Edge Gallery se concentre davantage sur le déploiement local et l'écosystème open source des applications multimodales, avec pour objectif d'empouvoir la communauté des développeurs via Gemma3n pour créer une variété d'applications d'IA côté terminal. Cependant, certaines voix estiment qu'il existe encore un écart de performance entre l'IA côté terminal et les modèles cloud, ce qui pourrait limiter son développement en raison de la poursuite de l'expérience optimale par les utilisateurs. AIbase pense que, avec l'amélioration continue des performances matérielles et des optimisations des modèles, l'IA côté terminal pourrait rivaliser avec les modèles cloud dans certains scénarios spécifiques.
Le lancement de Google AI Edge Gallery montre non seulement les avancées technologiques de Gemma3n en matière de multimodalité et de déduction côté terminal, mais aussi, grâce à son approche open source, abaisse les barrières à l'entrée pour le développement d'applications d'IA. Sa capacité d'exécution hors ligne, sa prise en charge multimodale et ses technologies de quantification efficaces fournissent des outils flexibles et puissants aux développeurs. AIbase prévoit que ce projet suscitera davantage d'applications innovantes, en particulier dans les scénarios sensibles à la vie privée et avec des contraintes de ressources. À l'avenir, avec la sortie de la version iOS et l'intégration de plus de modèles, Google AI Edge Gallery devrait devenir un modèle incontournable pour le développement d'IA côté terminal.