當AI巨頭聚焦大模型時,一場算力效率革命已悄然開啓。頂尖開源推理引擎vLLM團隊宣佈成立AI基礎設施公司Inferact,旨在爲AI推理領域建立新秩序。這不僅是技術躍遷,更是AI邁向實用化的重要一步,已引發資本市場高度關注。
AI開源框架vLLM核心團隊成立初創公司Inferact,以80億美元投前估值完成1.5億美元種子輪融資,由a16z和光速創投領投,標誌着AI行業重心正從模型訓練轉向推理商業化。
MiniMax開源M2.1編程模型,已在Hugging Face、ModelScope和GitHub上線,方便開發者接入。該模型獲vLLM“Day-0”支持,可立即實現高效推理,並通過KTransformers技術優化性能。
vLLM團隊推出首個“全模態”推理框架vLLM-Omni,將文本、圖像、音頻、視頻的統一生成從概念驗證變爲可落地的代碼。該框架採用解耦流水線架構,包括模態編碼器(如ViT、Whisper)、LLM核心(沿用vLLM自迴歸引擎)和模態生成器(如DiT、Stable Diffusion),支持多模態輸入與輸出。開發者可通過GitHub和ReadTheDocs獲取,並立即pip安裝使用。
多功能文本到多模態內容生成框架
快速易用的LLM推理和服務平臺
1460億參數的高性能混合專家模型
Anthropic
$105
輸入tokens/百萬
$525
輸出tokens/百萬
200
上下文長度
Google
$0.7
$2.8
1k
$2.1
$17.5
$21
Alibaba
$6
$24
256
Baidu
-
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
$0.8
$0.15
$1.5
32
Tencent
$1
$4
Openai
$0.4
Huawei
$8
QuantTrio
MiniMax-M2-AWQ是基於MiniMaxAI/MiniMax-M2模型的量化版本,通過vLLM框架實現高效的文本生成。該模型採用AWQ量化技術,在保持模型性能的同時顯著減少內存佔用和提升推理速度,支持32K上下文長度和工具調用功能。
RedHatAI
這是unsloth/Mistral-Small-3.2-24B-Instruct-2506的量化版本,通過將權重和激活函數量化為FP4數據類型,減少了磁盤大小和GPU內存需求,同時支持vLLM推理。在多個任務上進行了評估以與未量化模型對比質量。
bullpoint
GLM-4.6-AWQ是對智譜AI的GLM-4.6(357B MoE)進行高性能AWQ量化的模型,專為vLLM推理進行了優化,能有效提升生產部署的吞吐量。該模型採用4位量化技術,在保持高精度的同時顯著減少顯存佔用。
DeepSeek-V3.2-Exp-AWQ是基於DeepSeek-V3.2-Exp模型的量化版本,通過vLLM框架實現高效文本生成。該模型引入了DeepSeek稀疏注意力機制,在長上下文訓練和推理效率上有顯著提升,同時保持了模型輸出質量。
TheClusterDev
這是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通過vLLM框架支持,在保持模型質量的同時顯著減小了模型體積,提升了推理效率。
pytorch
這是由PyTorch團隊開發的FP8量化版本Gemma-3-27B模型,基於google/gemma-3-27b-it進行FP8量化處理。該模型通過vLLM和Transformers兩種方式支持高效推理,在保持模型質量的同時顯著降低了內存使用並提升了推理速度。
brandonbeiler
這是OpenGVLab/InternVL3_5-8B的fp8動態(w8a8)量化版本,針對vLLM高性能推理進行了優化。採用FP8動態量化技術,在保持視覺理解能力的同時顯著減少內存佔用並提升推理速度。
這是InternVL3_5-GPT-OSS-20B-A4B-Preview模型的FP8動態量化版本,採用w8a8技術優化,專門針對vLLM進行高性能推理部署。該模型在保持視覺語言理解能力的同時,顯著提升了推理速度和內存效率。
這是OpenGVLab/InternVL3_5-30B-A3B的fp8動態(w8a8)量化版本,針對vLLM高性能推理優化,採用FP8動態量化技術,內存佔用減少約50%,推理速度顯著提升
lmstudio-community
Seed-OSS-36B-Instruct是由ByteDance-Seed開發的大型語言模型,參數量達360億,採用Apache-2.0開源許可證。該模型基於transformers庫構建,支持vllm和mlx技術優化,特別針對蘋果Silicon芯片進行了8位量化處理,提供高效的文本生成能力。
dnakov
Seed-OSS-36B-Instruct是字節跳動開發的文本生成模型,基於36B參數規模的大語言模型架構,專門針對指令跟隨任務進行優化。該模型支持中英文雙語,採用Apache-2.0開源許可證,可通過vllm和mlx推理框架進行高效部署。
這是 Google Gemma-3n-E2B-it 模型的量化版本,通過將權重量化為 INT4 數據類型進行優化,可使用 vLLM 框架進行高效推理。該模型支持音頻-視覺-文本多模態輸入,輸出為文本。
這是一個基於Google Gemma-3n-E2B-it的量化版本模型,採用FP8數據類型進行權重和激活量化,支持音頻、視覺和文本多模態輸入,輸出為文本。模型通過vLLM實現高效部署,在保持高精度的同時顯著提升推理效率。
ELVISIO
Qwen3-30B-A3B-Instruct-2507-AWQ 是 Qwen3-30B-A3B-Instruct-2507 的 AWQ int4 量化版本,具有 305 億總參數和 33 億激活參數。該模型在指令遵循、邏輯推理、文本理解、數學、科學、編碼和工具使用等方面有顯著改進,支持 256K 長上下文理解能力,可與 Transformers 和 vLLM 兼容高效進行文本生成。
btbtyler09
Devstral-Small-2507-AWQ是基於mistralai/Devstral-Small-2507模型派生的量化版本,採用AutoAWQ技術進行4位量化,專為在vLLM推理引擎上高效運行而優化。
基於Llama-4架構的17B參數大語言模型,通過INT4權重量化技術優化,減少了75%的GPU內存和磁盤空間需求,支持多語言文本生成任務,可高效部署於vLLM推理框架。
這是google/gemma-3-27b-it的量化版本,支持視覺-文本輸入和文本輸出,通過權重量化和激活量化優化,可使用vLLM進行高效推理。
cognitivecomputations
DeepSeek R1 0528的AWQ量化模型,支持使用vLLM在8塊80GB GPU上以全上下文長度運行。
ConfidentialMind
這是 OpenGVLab/InternVL3-38B 的 FP8 靜態量化版本,針對使用 vLLM 進行高性能推理進行了優化,在視覺語言任務上實現了約 2 倍的加速,同時精度損失極小。
speakleash
這是一個基於Bielik-1.5B-v3.0-Instruct模型的FP8動態量化版本,適配vLLM或SGLang推理框架,通過AutoFP8量化技術將參數字節數從16位降至8位,顯著降低磁盤空間和GPU顯存需求。
一個基於MCP的vLLM交互式性能測試工具原型
vLLM是一個高效、易用的LLM推理和服務庫,支持多種模型架構和優化技術,提供高性能的LLM服務。