谷歌发布 Gemma 3 QAT 模型:一张3090显卡也能轻松驾驭
谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高质量。具体来说,经过 QAT 优化的 Gemma327B 模型,其显存需求从54GB 大幅降低到14.1GB,意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。通过简单的测试,配备 RTX3070的机器也能运行 Gemma3的12B 版本,尽管其 token 输出速度稍显不足,但整体性能仍在可接受范围之内。QAT 的神奇