Best 量化感知训练(QAT) AI Tools & Models - Premium 量化感知训练(QAT) News

AI News

谷歌发布 Gemma 3 QAT 模型：一张3090显卡也能轻松驾驭

谷歌近期推出了 Gemma3系列的全新版本，这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后，谷歌便发布了经过量化感知训练（QAT）优化的 Gemma3，旨在显著降低内存需求的同时，保持模型的高质量。具体来说，经过 QAT 优化的 Gemma327B 模型，其显存需求从54GB 大幅降低到14.1GB，意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。通过简单的测试，配备 RTX3070的机器也能运行 Gemma3的12B 版本，尽管其 token 输出速度稍显不足，但整体性能仍在可接受范围之内。QAT 的神奇

35.9k 6 hours ago

Models

Doubao-embedding

Bytedance

$0.5

Input tokens/M

Output tokens/M

Context Length

Pangu-NLP-N4-4K-3.2.36

Huawei

Input tokens/M

Output tokens/M

Context Length

Qwen_v2.5_0.5b_base

Alibaba

Input tokens/M

Output tokens/M

128

Context Length

Pangu-NLP-N2-32K-3.1.35

Huawei

Input tokens/M

Output tokens/M

Context Length

Pangu-NLP-N4-32K-2.5.35

Huawei

Input tokens/M

Output tokens/M

Context Length

Yi-9B-200K

01-ai

Input tokens/M

Output tokens/M

200

Context Length

Yi-34B

01-ai

Input tokens/M

Output tokens/M

Context Length

Baichuan-13B

Baichuan

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

谷歌发布 Gemma 3 QAT 模型：一张3090显卡也能轻松驾驭

Models

Doubao-embedding

Pangu-NLP-N4-4K-3.2.36

Qwen_v2.5_0.5b_base

Pangu-NLP-N2-32K-3.1.35

Pangu-NLP-N4-32K-2.5.35

Yi-9B-200K

Yi-34B

Baichuan-13B

Embeddinggemma 300M Qat Q4_0 GGUF

Gemma 3 270m It Qat

Gemma 3 12b It Qat Int4 GGUF

Gemma 3 27b It Qat Bnb 4bit

Gemma 3 4b It Qat

Amoral Gemma3 4B V2 Qat

Google_gemma 3 12b It Qat GGUF

Google_gemma 3 27b It Qat GGUF

Gemma 3 27b It Qat Bf16

Gemma 3 1b It Qat 4bit

Gemma 3 4b It Qat 4bit

Gemma 3 27b It Qat Compressed Tensors

Gemma 3 1b It Qat Q4_0 Unquantized

Gemma 3 12b It Qat Q4_0 Unquantized

Gemma 3 1b Pt Qat Q4_0 Gguf