Bei der Google I/O 2025-Konferenz hat Google einen neuen Open-Source-Projekt vorgestellt – die Google AI Edge Gallery, eine vollständig lokal laufende generative KI-Anwendung, die auf dem neuesten Gemma3n-Modell basiert und multimodale Fähigkeiten integriert. Diese Anwendung unterstützt Text-, Bild- und Audiodaten als Eingaben. Dank ihrer effizienten AI-Leistung am Gerät und ihrer Open-Source-Natur bietet diese Plattform Entwicklern ein ideales Vorlage für lokalisierte KI-Anwendungen.

image.png

Google AI Edge Gallery: Ein neues Maßstab für AI am Gerät

Die Google AI Edge Gallery ist eine experimentelle Android-Anwendung (eine iOS-Version wird bald verfügbar sein), die es Benutzern ermöglicht, eine Vielzahl von Open-Source-AI-Modellen von Hugging Face auf ihrem lokalen Gerät auszuführen – ohne Internetverbindung können effiziente Inferenzen durchgeführt werden. Das Projekt unterliegt der Apache2.0-Lizenz, und der Code ist bereits auf GitHub verfügbar, sodass Entwickler ihn frei nutzen und anpassen können. Dadurch wird das Entwicklungshindernis für AI-Anwendungen am Gerät erheblich gesenkt. AIbase hat bemerkt, dass dieses Projekt nicht nur die neuesten Errungenschaften von Google im Bereich der AI am Gerät zeigt, sondern auch Entwicklern eine schnelle Vorlage zur Verfügung stellt, um individuelle AI-Anwendungen zu erstellen.

Der Kernpunkt besteht in der Basis des Gemma3n-Modells, einem speziell für mobile Geräte optimierten multimodalen kleinsprachlichen Modell (SLM), das Texte, Bilder, Audiodaten und Videos als Eingaben unterstützt und über ausgezeichnete lokale Inferenzfähigkeiten verfügt. Ob in der Offline-Umgebung die Spracherkennung oder Bildanalyse oder interaktive Kommunikation – die Google AI Edge Gallery zeigt das große Potenzial von AI am Gerät.

image.png

Multimodale Fähigkeiten: Unterstützung für Text, Bild und Audio

Die Google AI Edge Gallery integriert die multimodalen Funktionen von Gemma3n und ermöglicht Benutzern das Hochladen von Bildern und Audiodateien für die Verarbeitung. Zum Beispiel können Techniker vor Ort Fotos von Geräten aufnehmen und Fragen stellen, woraufhin die KI präzise Antworten basierend auf dem Bildinhalt generieren kann. Lagerarbeiter können ihre Bestandsdaten per Sprache aktualisieren, um intelligente Interaktionen "händefrei" durchzuführen. Außerdem unterstützt Gemma3n qualitativ hochwertige automatische Spracherkennung (ASR) und Sprachübersetzungsfunktionen und kann komplexe multimodale Eingaben verarbeiten, was neue Möglichkeiten für interaktive Anwendungen eröffnet.

AIbase hat erfahren, dass die 2B- und 4B-Parameter-Versionen von Gemma3n Text, Bilder, Videos und Audiodaten verarbeiten können. Die entsprechenden Modelle sind bereits bei Hugging Face verfügbar, und die Audioverarbeitungsfunktion wird bald veröffentlicht. Im Vergleich zu traditionellen Cloud-Großmodellen bietet das miniaturisierte Design von Gemma3n einen reibungslosen Betrieb auf mobilen Geräten wie Smartphones und Tablets, wobei das Modell nur 529 MB groß ist, aber pro Sekunde 2585 Tokens verarbeiten kann.

image.png

Open Source & Effizienz: Entwicklerfreundliche Design

Durch den LiteRT-Runzeiten und die LLM-Inference-API bietet die Google AI Edge Gallery eine leichte Umgebung für die Ausführung von Modellen und ermöglicht es Entwicklern, unterschiedliche Modelle von Hugging Face zu wählen und zu wechseln. Das Projekt integriert auch Retrieval-Augmented Generation (RAG) und Funktionen für Funktionsaufrufe, sodass Entwickler bestimmte domaineigene Daten in ihre Anwendungen einbinden können, ohne das Modell anzupassen. Unternehmen könnten beispielsweise RAG-Technologie nutzen, um interne Wissensdatenbanken mit KI zu kombinieren und personalisierte Frage-Antwort-Dienste bereitzustellen.

Außerdem unterstützt Gemma3n die neuesten Int4-Quantifizierungstechniken, wodurch die Modulgröße gegenüber dem bf16-Format um 2,5 bis 4-mal reduziert werden kann, wobei auch Latenz und Speicherbedarf deutlich gesenkt werden. Diese effiziente Quantifizierungssolution sorgt für herausragende Leistungen der AI-Modelle auf energieeffizienten Geräten. Entwickler können mithilfe der Colab-Tutorials von Google den Modellanpassung, -konvertierung und -bereitstellung schnell durchführen und so den Entwicklungsprozess stark vereinfachen.

Lokaler Betrieb & Datenschutz: Die einzigartigen Vorteile von AI am Gerät

Die volle Offline-Fähigkeit der Google AI Edge Gallery ist einer ihrer Hauptmerkmale. Alle AI-Inferenzen erfolgen lokal auf dem Gerät, ohne dass ein Netzwerk oder Google Play Services benötigt werden. Dadurch werden Datensicherheit und niedrige Latenz gewährleistet. Dies ist besonders wichtig für Szenarien mit strenger Privatsphäre- und Realzeitanforderungen, wie etwa im medizinischen Bereich oder bei industriellen Wartungsarbeiten. Beispielsweise können Feldkräfte in Netzwerkschattengebieten mithilfe von Sprache oder Bild mit der KI interagieren, um Gerätediagnosen oder Datensammlungen durchzuführen.

AIbase ist der Meinung, dass dieser Offline-Betriebsmodus nicht nur das Benutzererlebnis verbessert, sondern auch Unternehmen von der Abhängigkeit von Cloud-Rechenleistung entkoppelt und Betriebskosten reduziert. Die Open-Source-Natur des Projekts gibt Entwicklern weiter die Freiheit, individuell anzupassen. Ob für Bildungsassistenten, medizinische Supporttools oder innovative interaktive Erlebnisse – die Google AI Edge Gallery bietet eine solide Grundlage.

Brancheffekte: Popularität und Herausforderungen der AI am Gerät

Die Veröffentlichung der Google AI Edge Gallery markiert einen weiteren Schritt in Richtung Popularität der AI am Gerät. Im Vergleich zu Hume AI's EVI3 und ElevenLabs' Conversational AI 2.0 konzentriert sich die Google AI Edge Gallery stärker auf lokale Bereitstellung und Open-Source-Ekosysteme für multimodale Anwendungen. Ziel ist es, die Community durch Gemma3n mit diversifizierten Anwendungen der AI am Gerät zu versorgen. Einige Argumente gehen jedoch davon aus, dass die AI am Gerät im Vergleich zu Cloud-Großmodellen Performanceunterschiede aufweist und die "besten Nutzererfahrungen" möglicherweise ihre Entwicklung limitieren könnten. AIbase glaubt jedoch, dass durch fortschreitende Hardwareentwicklung und kontinuierliche Optimierung der Modelle die AI am Gerät in bestimmten Szenarien ähnliche Leistungen wie Cloud-Modelle erreichen könnte.

Die Einführung der Google AI Edge Gallery zeigt nicht nur technologische Durchbrüche in Bezug auf multimodale Fähigkeiten und lokale Inferenz, sondern auch durch Open-Source-Möglichkeiten die Entwicklungshürden für AI-Anwendungen gesenkt. Ihre Offline-Fähigkeiten, multimodale Unterstützung und effiziente Quantifizierungstechniken bieten Entwicklern flexible und starke Werkzeuge. AIbase erwartet, dass dieses Projekt weitere innovative Anwendungen inspirieren wird, insbesondere in privacy-sensitive und ressourcenlimitierten Szenarien. Mit der Ankunft der iOS-Version und der Integration weiterer Modelle könnte die Google AI Edge Gallery zum Referenzpunkt für die Entwicklung der AI am Gerät werden.