戴尔CEO警告,全球AI加速器内存需求正爆发式增长,预计2028年将比2023年激增625倍。这一“跃迁式”增长主要由单机容量和部署规模共同推动,给半导体供应链带来巨大压力,供需失衡短期内难以缓解。
内存市场出现稳定迹象,大型科技公司需求下降或致DRAM价格回落。此前价格飙升主要因OpenAI向三星和SK海力士采购约90万片DRAM晶圆。
谷歌推出TurboQuant算法,通过PolarQuant和QJL技术,将大语言模型推理中的键值缓存内存需求降低至少6倍,在H100 GPU上注意力计算速度提升最高8倍,且保持零精度损失。这一突破有望降低AI部署成本,加速长上下文应用发展。
SK海力士预测,受AI需求推动,内存价格将持续上涨。市场已回归理性,客户减少非理性囤货,供需趋于平衡。尽管PC和移动设备需求可能放缓,但AI相关需求将支撑内存市场增长。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Openai
$0.4
-
128
$1.75
$14
400
Google
$140
$280
32
$0.35
$0.7
131
Deepseek
$2
8
Baichuan
Baidu
$0.8
$3.2
Tencent
$4
$8
28
Chatglm
$5
Bytedance
cerebras
MiniMax-M2-REAP-162B-A10B是MiniMax-M2的高效压缩版本,采用REAP(路由加权专家激活剪枝)方法,在保持性能几乎不变的情况下将模型大小减少30%,从230B参数压缩到162B参数,显著降低了内存需求。
DarwinAnim8or
Prima-24B是一个240亿参数的大语言模型,通过GGUF格式进行量化优化,专门针对角色扮演和创意写作任务进行了优化。该模型基于原始Prima-24B模型转换而来,采用Q4_K_M量化级别,在保持良好性能的同时显著减小了模型大小和内存需求。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8是基于百度ERNIE-4.5架构的多模态大语言模型,通过AWQ量化技术实现8位精度,在保持高性能的同时大幅降低内存需求。该模型在视觉推理、STEM问题解决、图像分析等方面表现出色,具备强大的多模态理解和推理能力。
unsloth
Qwen3-Coder-REAP-363B-A35B是通过REAP方法对Qwen3-Coder-480B-A35B-Instruct进行25%专家剪枝得到的稀疏混合专家模型,在保持接近原模型性能的同时显著降低了参数规模和内存需求,特别适用于资源受限的代码生成和智能编码场景。
RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4是一个经过FP4量化处理的多语言大语言模型,基于Meta-Llama-3.1架构,专为商业和研究用途设计。该模型通过将权重和激活量化为FP4数据类型,显著减少了磁盘空间和GPU内存需求,同时保持较好的性能表现。
这是unsloth/Mistral-Small-3.2-24B-Instruct-2506的量化版本,通过将权重和激活函数量化为FP4数据类型,减少了磁盘大小和GPU内存需求,同时支持vLLM推理。在多个任务上进行了评估以与未量化模型对比质量。
GLM-4.5-Air-REAP-82B-A12B 是 GLM-4.5-Air 的高效压缩版本,通过 REAP 剪枝技术将参数规模从 106B 压缩到 82B,减少 25% 内存需求,同时保持近乎无损的性能表现。
aisingapore
Qwen-SEA-LION-v4-32B-IT-4BIT是针对东南亚语言优化的32B参数大语言模型的4位量化版本,在保持优异性能的同时显著降低内存需求,可在消费级硬件上运行。
这是Qwen3-235B-A22B-Instruct-2507模型的量化版本,通过将权重和激活量化为FP4数据类型,显著降低了磁盘大小和GPU内存需求,同时保持与原始模型相近的性能表现。
bartowski
这是Kwaipilot的KAT-Dev模型的量化版本,使用llama.cpp的imatrix量化技术处理,旨在提升模型在不同硬件环境下的运行效率和性能。该版本提供多种量化级别,从高质量到极致压缩,适应不同的内存和计算资源需求。
这是Meta Llama-3.1-8B-Instruct模型的FP8量化版本,通过对权重和激活值进行FP8量化,显著减少了磁盘大小和GPU内存需求,同时保持了良好的模型性能。
ubergarm
基于ik_llama.cpp分支优化的GLM-4.6量化版本,采用先进的IQ量化技术,在保持高质量输出的同时显著减少内存占用。该系列包含多种量化级别,从IQ5_K到IQ1_KT,满足不同硬件环境下的推理需求。
这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本,通过将权重和激活量化为FP8数据类型实现优化,显著减少磁盘大小和GPU内存需求约50%,同时保持出色的文本生成性能。
这是Qwen3-VL-235B-A22B-Instruct的量化版本,通过将权重和激活值量化为FP8数据类型,有效减少了磁盘大小和GPU内存需求约50%。支持文本、图像和视频输入,输出文本,适用于多种自然语言处理和多模态任务。
Qwen3-VL-235B-A22B-Instruct-FP8-dynamic 是 Qwen3-VL-235B-A22B-Instruct 的量化版本,通过将权重和激活量化为 FP8 数据类型,显著减少了磁盘大小和 GPU 内存需求,同时保持了较高的模型性能。
这是MistralAI Magistral Small 2509模型的量化版本,使用llama.cpp的imatrix技术进行量化处理。该版本在保持相对较好性能的同时,显著减少了模型的内存占用和计算资源需求,使其能够在各种硬件环境下运行。
nvidia
NVIDIA Qwen3-8B FP4 模型是阿里巴巴Qwen3-8B模型的量化版本,采用优化的Transformer架构的自回归语言模型。该模型使用FP4量化技术,在保持性能的同时显著减少内存占用和计算需求,适用于AI智能体系统、聊天机器人、RAG系统等应用场景。
Downtown-Case
GLM-4.5-Base是一款经过量化处理的文本生成模型,基于zai-org/GLM-4.5-Base模型进行优化,专门为128GB内存搭配小型GPU的设备设计。采用ik_llama.cpp的新型IQ2_KL量化方法,在保持性能的同时显著降低资源需求,适合文本生成任务。
这是Devstral-Small-2507模型的INT8量化版本,通过将权重和激活值量化为8位整数,显著降低了GPU内存和磁盘空间需求约50%,同时保持了良好的编码任务性能。
Devstral-Small-2507-FP8-Dynamic是通过将Devstral-Small-2507的权重和激活量化为FP8数据类型而获得的优化模型,能够有效减少GPU内存和磁盘大小需求约50%,同时保持接近原始模型的性能表现。