谷歌于本周五凌晨正式发布并开源全新端侧多模态大模型Gemma3n,这一突破性产品为手机、平板、笔记本等端侧设备带来了此前只能在云端体验的强大多模态功能。

核心特性:小体积大能力

Gemma3n提供E2B和E4B两个版本,虽然原始参数量分别为5B和8B,但通过架构创新,其内存占用仅相当于传统2B和4B模型,分别只需2GB和3GB内存即可运行。该模型原生支持图像、音频、视频和文本的多模态输入处理,支持140种文本语言和35种语言的多模态理解。

值得一提的是,E4B版本在LMArena评测中得分超过1300,成为首个达到此基准的100亿参数以下模型,在多语言、数学、编码和推理能力方面均实现显著提升。

QQ20250627-101207.png

技术创新:四大突破性架构

MatFormer架构:Gemma3n采用全新的Matryoshka Transformer架构,如俄罗斯套娃般实现一个模型包含多种尺寸。训练E4B模型时同步优化E2B子模型,为开发者提供灵活的性能选择。通过Mix-n-Match技术,用户可在E2B和E4B之间创建自定义尺寸模型。

每层嵌入(PLE)技术:这项创新允许大部分参数在CPU上加载计算,只有核心Transformer权重需要存储在加速器内存中,大幅提高内存效率的同时不影响模型质量。

KV Cache共享:针对长内容处理优化,通过键值缓存共享技术,预填充性能相比Gemma34B提升两倍,显著加快长序列处理的首个token生成时间。

先进编码器:音频方面采用基于通用语音模型(USM)的编码器,支持自动语音识别和语音翻译功能,可处理长达30秒的音频片段。视觉方面配备MobileNet-V5-300M编码器,支持多种输入分辨率,在Google Pixel上可达到每秒60帧的处理速度。

QQ20250627-101357.png

实用功能与应用场景

Gemma3n在语音翻译方面表现突出,特别是英语与西班牙语、法语、意大利语、葡萄牙语之间的转换。视觉编码器MobileNet-V5通过先进蒸馏技术,相比基线模型实现13倍加速,参数减少46%,内存占用降低4倍,同时保持更高准确率。

开源生态与发展前景

谷歌已在Hugging Face平台开源模型和权重,并提供详细文档和开发指南。自去年首个Gemma模型发布以来,该系列累计下载量已超过1.6亿次,显示出强劲的开发者生态。

Gemma3n的发布标志着端侧AI进入新的发展阶段,将云端级别的多模态能力下沉到用户设备,为移动应用、智能硬件等领域带来无限可能。

地址:https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

文档:https://ai.google.dev/gemma/docs/gemma-3n