AMD发布vLLM-ATOM插件,旨在不改变现有工作流的前提下,充分挖掘硬件潜力,为DeepSeek-R1、Kimi-K2等主流大语言模型推理显著提速。vLLM本身是优化高并发场景吞吐量与显存利用率的开源框架,专注请求调度和缓存管理,ATOM插件则进一步强化了这一能力。
AMD发布vLLM-ATOM插件,专为大语言模型部署优化,在不改变现有工作流下,显著提升DeepSeek-R1、Kimi-K2等国产大模型在AMD硬件上的推理性能。该插件针对Instinct系列GPU定制,利用vLLM框架的高显存利用率优势,让开发者以低学习成本实现技术迁移,获得性能平滑升级。
寒武纪宣布完成对DeepSeek-V4全系列模型的“Day0”适配,基于vLLM推理框架,覆盖285B参数Flash版及1.6T参数Pro版。通过自研Torch-MLU-Ops算子库优化稀疏注意力与压缩结构,确保模型发布当日即可在寒武纪硬件上稳定运行,相关代码已开源至GitHub。
寒武纪公司宣布,已成功完成对深度求索公司开源AI模型DeepSeek-V4的Day 0适配,实现发布当天即稳定运行。通过自研融合算子库Torch-MLU-Ops,对模型中的Compressor、mHC等模块进行针对性加速,大幅提升推理效率。同时采用vLLM推理框架,为用户带来更高效的人工智能体验。
多功能文本到多模态内容生成框架
快速易用的LLM推理和服务平台
1460亿参数的高性能混合专家模型
Xai
$1.4
输入tokens/百万
$3.5
输出tokens/百万
2k
上下文长度
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
$6
$24
256
Baidu
-
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
$0.8
Moonshot
$4
$16
$0.15
$1.5
32
Tencent
$1
Deepseek
$12
QuantTrio
MiniMax-M2-AWQ是基于MiniMaxAI/MiniMax-M2模型的量化版本,通过vLLM框架实现高效的文本生成。该模型采用AWQ量化技术,在保持模型性能的同时显著减少内存占用和提升推理速度,支持32K上下文长度和工具调用功能。
RedHatAI
这是unsloth/Mistral-Small-3.2-24B-Instruct-2506的量化版本,通过将权重和激活函数量化为FP4数据类型,减少了磁盘大小和GPU内存需求,同时支持vLLM推理。在多个任务上进行了评估以与未量化模型对比质量。
bullpoint
GLM-4.6-AWQ是对智谱AI的GLM-4.6(357B MoE)进行高性能AWQ量化的模型,专为vLLM推理进行了优化,能有效提升生产部署的吞吐量。该模型采用4位量化技术,在保持高精度的同时显著减少显存占用。
DeepSeek-V3.2-Exp-AWQ是基于DeepSeek-V3.2-Exp模型的量化版本,通过vLLM框架实现高效文本生成。该模型引入了DeepSeek稀疏注意力机制,在长上下文训练和推理效率上有显著提升,同时保持了模型输出质量。
TheClusterDev
这是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通过vLLM框架支持,在保持模型质量的同时显著减小了模型体积,提升了推理效率。
pytorch
这是由PyTorch团队开发的FP8量化版本Gemma-3-27B模型,基于google/gemma-3-27b-it进行FP8量化处理。该模型通过vLLM和Transformers两种方式支持高效推理,在保持模型质量的同时显著降低了内存使用并提升了推理速度。
brandonbeiler
这是OpenGVLab/InternVL3_5-8B的fp8动态(w8a8)量化版本,针对vLLM高性能推理进行了优化。采用FP8动态量化技术,在保持视觉理解能力的同时显著减少内存占用并提升推理速度。
这是InternVL3_5-GPT-OSS-20B-A4B-Preview模型的FP8动态量化版本,采用w8a8技术优化,专门针对vLLM进行高性能推理部署。该模型在保持视觉语言理解能力的同时,显著提升了推理速度和内存效率。
这是OpenGVLab/InternVL3_5-30B-A3B的fp8动态(w8a8)量化版本,针对vLLM高性能推理优化,采用FP8动态量化技术,内存占用减少约50%,推理速度显著提升
lmstudio-community
Seed-OSS-36B-Instruct是由ByteDance-Seed开发的大型语言模型,参数量达360亿,采用Apache-2.0开源许可证。该模型基于transformers库构建,支持vllm和mlx技术优化,特别针对苹果Silicon芯片进行了8位量化处理,提供高效的文本生成能力。
dnakov
Seed-OSS-36B-Instruct是字节跳动开发的文本生成模型,基于36B参数规模的大语言模型架构,专门针对指令跟随任务进行优化。该模型支持中英文双语,采用Apache-2.0开源许可证,可通过vllm和mlx推理框架进行高效部署。
这是 Google Gemma-3n-E2B-it 模型的量化版本,通过将权重量化为 INT4 数据类型进行优化,可使用 vLLM 框架进行高效推理。该模型支持音频-视觉-文本多模态输入,输出为文本。
这是一个基于Google Gemma-3n-E2B-it的量化版本模型,采用FP8数据类型进行权重和激活量化,支持音频、视觉和文本多模态输入,输出为文本。模型通过vLLM实现高效部署,在保持高精度的同时显著提升推理效率。
ELVISIO
Qwen3-30B-A3B-Instruct-2507-AWQ 是 Qwen3-30B-A3B-Instruct-2507 的 AWQ int4 量化版本,具有 305 亿总参数和 33 亿激活参数。该模型在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等方面有显著改进,支持 256K 长上下文理解能力,可与 Transformers 和 vLLM 兼容高效进行文本生成。
btbtyler09
Devstral-Small-2507-AWQ是基于mistralai/Devstral-Small-2507模型派生的量化版本,采用AutoAWQ技术进行4位量化,专为在vLLM推理引擎上高效运行而优化。
基于Llama-4架构的17B参数大语言模型,通过INT4权重量化技术优化,减少了75%的GPU内存和磁盘空间需求,支持多语言文本生成任务,可高效部署于vLLM推理框架。
这是google/gemma-3-27b-it的量化版本,支持视觉-文本输入和文本输出,通过权重量化和激活量化优化,可使用vLLM进行高效推理。
cognitivecomputations
DeepSeek R1 0528的AWQ量化模型,支持使用vLLM在8块80GB GPU上以全上下文长度运行。
ConfidentialMind
这是 OpenGVLab/InternVL3-38B 的 FP8 静态量化版本,针对使用 vLLM 进行高性能推理进行了优化,在视觉语言任务上实现了约 2 倍的加速,同时精度损失极小。
speakleash
这是一个基于Bielik-1.5B-v3.0-Instruct模型的FP8动态量化版本,适配vLLM或SGLang推理框架,通过AutoFP8量化技术将参数字节数从16位降至8位,显著降低磁盘空间和GPU显存需求。
一个基于MCP的vLLM交互式性能测试工具原型
vLLM是一个高效、易用的LLM推理和服务库,支持多种模型架构和优化技术,提供高性能的LLM服务。