2025年のGoogle I/O開発者カンファレンスで、グーグルは軽量級のマルチモーダルモデルであるGemma3nを正式にリリースし、Gemmaモデルファミリーが継続的に拡張され、医療やアクセシビリティのシナリオ向けのMedGemmaとSignGemmaが追加されることを発表しました。
Gemma3nは、スマホ、ノートパソコン、タブレットなどの低パワーデバイス向けに設計されており、テキスト、音声、画像、動画の処理に対応しています。グーグルによると、Gemma3nはメモリ容量が2GB未満のデバイスでもスムーズに動作することが可能であり、その効率的なアーキテクチャが示されています。このモデルはリリース日に開発者プレビュー版として公開され、Gemini Nanoと共通のベースアーキテクチャを共有しています。
グーグルは、Gemma3nの軽量かつプライバシー保護の利点により、オフラインでのAIアプリケーションに最適であることを強調しました。大規模モデルのようにクラウドに依存する必要がないため、ローカルAIモデルは反応が早くコストも低く、ユーザーのデータが遠隔サーバーに送信されることがないため、特にプライバシーが敏感なシナリオに適しています。
ヘルスケア分野では、ヘルスケアAI開発者財団を通じて、健康に関するテキストと画像に特化したオープンソースのモデルであるMedGemmaがリリースされました。MedGemmaは優れたマルチモーダル解析能力を持っており、医療画像の識別やカルテのテキスト処理など、より正確なAIツールを作成できると説明されています。
さらに、グーグルは手話認識専用のSignGemmaモデルの登場を予告しており、アメリカ手話(ASL)を英語のテキストに翻訳することを目指しています。これにより、聴覚障害を持つユーザー向けのよりフレンドリーなコミュニケーションツールを構築する助けとなります。グーグルはこれが「これまでで最も強力な手話理解モデル」だと述べています。
一部の開発者はGemmaモデルシリーズの非標準的なライセンス条項に対して商業利用に対する懸念を抱いていますが、その幅広い機能性により、Gemmaモデルシリーズのダウンロード数はすでに何千万回を超え、開発者コミュニティから熱烈な反響を得ています。
今後、Gemmaモデルファミリーが拡大するにつれて、グーグルはデバイスエンド、ローカルプライバシープロテクション、医療・ヘルスケア、そしてアクセシビリティ分野でのオープンAIモデルのさらなる広範な活用を推進していきます。