In letzter Zeit hat Google im Bereich der künstlichen Intelligenz erneut Wellen gemacht, indem es drei neue Varianten des Gemma-Modells basierend auf MedGemma, SignGemma und DolphinGemma ankündigte. Diese Modelle sind jeweils für die Bereiche Medizin, Gebärdensprachübersetzung und Delphin-Sprachforschung entwickelt worden und zeigen das große Potenzial der AI-Technologie in der Anwendung über verschiedene Gebiete hinweg. Im Folgenden wird AIbase diese drei Modelle im Detail interpretieren und deren Vorteile sowie ihre zukünftigen Anwendungsmöglichkeiten beleuchten.

MedGemma: Eine Revolution in der medizinischen KI zur Unterstützung präziser Diagnostik

MedGemma ist ein spezielles AI-Modell, das von Google für den medizinischen Bereich entwickelt wurde. Es bietet zwei Versionen, um unterschiedliche Bedürfnisse zu erfüllen. Das 4B-Multimodalmodell kann kombinierte Aufgaben mit Bildern und Text bearbeiten und wurde nach einer Vorverarbeitung medizinischer Daten wie Brust-Röntgenaufnahmen, Hautbilder, Augendiagramme und Gewebeproben als Bildbetrachtungsdiagnose, Berichtserstellung und Patientenaufteilung stark in diesen Aufgaben eingesetzt. Das 27B-Textverständnismodell hingegen konzentriert sich auf reine Textbearbeitung und zeigt dank seiner stärkeren Inferenzfähigkeit größere Fähigkeiten bei der Fallanalyse von Krankenakten und medizinischen Fragen. Beide Modelle können auf einem einzelnen GPU-Gerät effizient laufen, was den Medizin-Entwicklern flexible Entwicklungsoptionen bietet.

image.png

Google sagte, dass MedGemma durch sein Health AI Developer Foundations Programm veröffentlicht wurde, um die Entwicklung von medizinischen Anwendungen zu beschleunigen. In Zukunft können Entwickler diese Modelle verwenden, um intelligente medizinische Tools zu erstellen und die Präzisionsmedizin neue Impulse zu geben.

SignGemma: Kommunikationsbarrieren brechen, Gebärdensprachübersetzung geht einen Schritt weiter

SignGemma ist ein offenes Modell, das speziell für die Gebärdensprachübersetzung entwickelt wurde und sich vor allem auf die Übersetzung von Amerikanischer Gebärdensprache (ASL) in Englisch konzentriert. Dieses Modell wandelt Gebärdengesten in gesprochene Texte um und bietet Gehörlosen und Entwicklern eine neue Art der Interaktion. Angeblich zeigt SignGemma herausragende Leistungen beim Verständnis der Gebärdensprache und gilt als "das bislang stärkste Modell zur Verständigung der Gebärdensprache".

Google plant, in Zukunft die Mehrsprachigkeit von SignGemma weiter auszubauen, um weltweit der Gehörlosen-Gemeinschaft den Zugang zu barrierefreier Kommunikation zu ermöglichen. Entwickler können auf dieser Basis innovative Anwendungen entwickeln, wie zum Beispiel Echtzeit-Übersetzungsgeräte oder Bildungsplattformen, um Gehörlose mehr Vorteile zu bieten.

DolphinGemma: Den Delfin-Sprache entschlüsseln, die Kommunikation zwischen Arten erforschen

DolphinGemma ist ein innovatives Modell, das von Google in Zusammenarbeit mit dem Wild Dolphin Project (WDP) und dem Georgia Institute of Technology entwickelt wurde. Ziel ist es, komplexe Geräusche von Delfinen zu analysieren und zu generieren. Dieses Modell basiert auf 40 Jahren angesammelter Akustikdaten von Nordatlantischen Punktdelfinen und kann bestimmte Tonmuster wie Signaturpfiffe und Impuls-Pulsgeräusche erkennen und Sequenzen vorhersagen, ähnlich dem Prinzip von menschlichen Sprachmodellen.

DolphinGemma wurde bereits in das CHAT-System (Cetacean Hearing Augmentation Telemetry) von WDP integriert, um in Echtzeit Delfingerausgaben über Smartphone-Schnittstellen zu analysieren. Forscher versuchten sogar, durch synthetische Pfiffe einfache Interaktionen mit Delfinen zu veranstalten, wie zum Beispiel Anfragen an Delfine, bestimmte Objekte zu manipulieren. Google plant, DolphinGemma im Sommer 2025 open source zu machen, damit weitere Forscher sie auf andere Walarten anwenden können und die Forschung zur Kommunikation zwischen Arten beschleunigen.

Open Source & Zukunft: AI schafft Kreuzfeld-Innovationen

Google betonte, dass alle drei Modelle auf der Gemma-Architektur basieren und gleichzeitig Effizienz und Anpassungsfähigkeit bieten. MedGemma wurde bereits über das Health AI Developer Foundations Programm verfügbar gemacht, und SignGemma und DolphinGemma werden in Zukunft ebenfalls open source gemacht. Allerdings haben einige Entwickler Bedenken bezüglich der kommerziellen Nutzung wegen der nicht standardmäßigen Lizenzbedingungen. In Zukunft könnte Google seine Lizenzpolitik optimieren, um die kommerzielle Nutzungspotenziale der Modelle zu erhöhen.

Win-win-Situation für Technologie und gesellschaftlicher Nutzen

Von der medizinischen Diagnose bis zur Gebärdensprachübersetzung und der Forschung zur Delfinsprache zeigen die drei Varianten der Gemma-Modelle von Google das unendliche Potenzial der AI-Technologie, um praktische Probleme zu lösen und unbekannte Gebiete zu erforschen. MedGemma bringt effiziente Werkzeuge für die Medizinindustrie, SignGemma fördert die barrierefreie Kommunikation, während DolphinGemma ein neues Fenster für die menschliche Kommunikation mit der Natur öffnet. AIbase glaubt, dass diese Innovationen nicht nur die Vorreiterrolle der Technologie zeigen, sondern auch den wichtigen Beitrag der AI für sozialen Wert und wissenschaftliche Forschung unterstreichen.