当AI巨头聚焦大模型时,一场算力效率革命已悄然开启。顶尖开源推理引擎vLLM团队宣布成立AI基础设施公司Inferact,旨在为AI推理领域建立新秩序。这不仅是技术跃迁,更是AI迈向实用化的重要一步,已引发资本市场高度关注。
AI开源框架vLLM核心团队成立初创公司Inferact,以80亿美元投前估值完成1.5亿美元种子轮融资,由a16z和光速创投领投,标志着AI行业重心正从模型训练转向推理商业化。
MiniMax开源M2.1编程模型,已在Hugging Face、ModelScope和GitHub上线,方便开发者接入。该模型获vLLM“Day-0”支持,可立即实现高效推理,并通过KTransformers技术优化性能。
vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。
多功能文本到多模态内容生成框架
快速易用的LLM推理和服务平台
1460亿参数的高性能混合专家模型
Xai
$1.4
输入tokens/百万
$3.5
输出tokens/百万
2k
上下文长度
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Baidu
-
128
Alibaba
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
$0.8
Moonshot
$4
$16
$0.15
$1.5
32
Tencent
$1
Deepseek
$12
QuantTrio
MiniMax-M2-AWQ是基于MiniMaxAI/MiniMax-M2模型的量化版本,通过vLLM框架实现高效的文本生成。该模型采用AWQ量化技术,在保持模型性能的同时显著减少内存占用和提升推理速度,支持32K上下文长度和工具调用功能。
RedHatAI
这是unsloth/Mistral-Small-3.2-24B-Instruct-2506的量化版本,通过将权重和激活函数量化为FP4数据类型,减少了磁盘大小和GPU内存需求,同时支持vLLM推理。在多个任务上进行了评估以与未量化模型对比质量。
bullpoint
GLM-4.6-AWQ是对智谱AI的GLM-4.6(357B MoE)进行高性能AWQ量化的模型,专为vLLM推理进行了优化,能有效提升生产部署的吞吐量。该模型采用4位量化技术,在保持高精度的同时显著减少显存占用。
DeepSeek-V3.2-Exp-AWQ是基于DeepSeek-V3.2-Exp模型的量化版本,通过vLLM框架实现高效文本生成。该模型引入了DeepSeek稀疏注意力机制,在长上下文训练和推理效率上有显著提升,同时保持了模型输出质量。
TheClusterDev
这是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通过vLLM框架支持,在保持模型质量的同时显著减小了模型体积,提升了推理效率。
pytorch
这是由PyTorch团队开发的FP8量化版本Gemma-3-27B模型,基于google/gemma-3-27b-it进行FP8量化处理。该模型通过vLLM和Transformers两种方式支持高效推理,在保持模型质量的同时显著降低了内存使用并提升了推理速度。
brandonbeiler
这是OpenGVLab/InternVL3_5-8B的fp8动态(w8a8)量化版本,针对vLLM高性能推理进行了优化。采用FP8动态量化技术,在保持视觉理解能力的同时显著减少内存占用并提升推理速度。
这是InternVL3_5-GPT-OSS-20B-A4B-Preview模型的FP8动态量化版本,采用w8a8技术优化,专门针对vLLM进行高性能推理部署。该模型在保持视觉语言理解能力的同时,显著提升了推理速度和内存效率。
这是OpenGVLab/InternVL3_5-30B-A3B的fp8动态(w8a8)量化版本,针对vLLM高性能推理优化,采用FP8动态量化技术,内存占用减少约50%,推理速度显著提升
lmstudio-community
Seed-OSS-36B-Instruct是由ByteDance-Seed开发的大型语言模型,参数量达360亿,采用Apache-2.0开源许可证。该模型基于transformers库构建,支持vllm和mlx技术优化,特别针对苹果Silicon芯片进行了8位量化处理,提供高效的文本生成能力。
dnakov
Seed-OSS-36B-Instruct是字节跳动开发的文本生成模型,基于36B参数规模的大语言模型架构,专门针对指令跟随任务进行优化。该模型支持中英文双语,采用Apache-2.0开源许可证,可通过vllm和mlx推理框架进行高效部署。
这是 Google Gemma-3n-E2B-it 模型的量化版本,通过将权重量化为 INT4 数据类型进行优化,可使用 vLLM 框架进行高效推理。该模型支持音频-视觉-文本多模态输入,输出为文本。
这是一个基于Google Gemma-3n-E2B-it的量化版本模型,采用FP8数据类型进行权重和激活量化,支持音频、视觉和文本多模态输入,输出为文本。模型通过vLLM实现高效部署,在保持高精度的同时显著提升推理效率。
ELVISIO
Qwen3-30B-A3B-Instruct-2507-AWQ 是 Qwen3-30B-A3B-Instruct-2507 的 AWQ int4 量化版本,具有 305 亿总参数和 33 亿激活参数。该模型在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等方面有显著改进,支持 256K 长上下文理解能力,可与 Transformers 和 vLLM 兼容高效进行文本生成。
btbtyler09
Devstral-Small-2507-AWQ是基于mistralai/Devstral-Small-2507模型派生的量化版本,采用AutoAWQ技术进行4位量化,专为在vLLM推理引擎上高效运行而优化。
基于Llama-4架构的17B参数大语言模型,通过INT4权重量化技术优化,减少了75%的GPU内存和磁盘空间需求,支持多语言文本生成任务,可高效部署于vLLM推理框架。
这是google/gemma-3-27b-it的量化版本,支持视觉-文本输入和文本输出,通过权重量化和激活量化优化,可使用vLLM进行高效推理。
cognitivecomputations
DeepSeek R1 0528的AWQ量化模型,支持使用vLLM在8块80GB GPU上以全上下文长度运行。
ConfidentialMind
这是 OpenGVLab/InternVL3-38B 的 FP8 静态量化版本,针对使用 vLLM 进行高性能推理进行了优化,在视觉语言任务上实现了约 2 倍的加速,同时精度损失极小。
speakleash
这是一个基于Bielik-1.5B-v3.0-Instruct模型的FP8动态量化版本,适配vLLM或SGLang推理框架,通过AutoFP8量化技术将参数字节数从16位降至8位,显著降低磁盘空间和GPU显存需求。
一个基于MCP的vLLM交互式性能测试工具原型
vLLM是一个高效、易用的LLM推理和服务库,支持多种模型架构和优化技术,提供高性能的LLM服务。