最好的vLLM AI工具模型_精選vLLM資訊

AI資訊

AMD 推出 vLLM-ATOM 插件，深度優化國產大模型推理表現

AMD發佈vLLM-ATOM插件，旨在不改變現有工作流的前提下，充分挖掘硬件潛力，爲DeepSeek-R1、Kimi-K2等主流大語言模型推理顯著提速。vLLM本身是優化高併發場景吞吐量與顯存利用率的開源框架，專注請求調度和緩存管理，ATOM插件則進一步強化了這一能力。

14.9k 21 小時前

加速國產大模型：AMD推出vLLM-ATOM插件大幅提升推理效率

AMD發佈vLLM-ATOM插件，專爲大語言模型部署優化，在不改變現有工作流下，顯著提升DeepSeek-R1、Kimi-K2等國產大模型在AMD硬件上的推理性能。該插件針對Instinct系列GPU定製，利用vLLM框架的高顯存利用率優勢，讓開發者以低學習成本實現技術遷移，獲得性能平滑升級。

21.3k 3 小時前

寒武紀宣佈實現 DeepSeek-V4全系列模型 Day0適配並開源優化代碼

寒武紀宣佈完成對DeepSeek-V4全系列模型的“Day0”適配，基於vLLM推理框架，覆蓋285B參數Flash版及1.6T參數Pro版。通過自研Torch-MLU-Ops算子庫優化稀疏注意力與壓縮結構，確保模型發佈當日即可在寒武紀硬件上穩定運行，相關代碼已開源至GitHub。

19.6k 23 小時前

寒武紀成功適配 DeepSeek-V4，推動 AI 模型高效運行

寒武紀公司宣佈，已成功完成對深度求索公司開源AI模型DeepSeek-V4的Day 0適配，實現發佈當天即穩定運行。通過自研融合算子庫Torch-MLU-Ops，對模型中的Compressor、mHC等模塊進行鍼對性加速，大幅提升推理效率。同時採用vLLM推理框架，爲用戶帶來更高效的人工智能體驗。

17.7k 22 小時前

AI產品

Alpha-VLLM

多功能文本到多模態內容生成框架

AI模型

10.4k

vLLM

快速易用的LLM推理和服務平臺

開發與工具

12.7k

Skywork-MoE-Base

1460億參數的高性能混合專家模型

AI模型

10.2k

模型

Claude 3 Opus

Anthropic

$105

輸入tokens/百萬

$525

輸出tokens/百萬

200

上下文長度

Gemini 2.0 Flash

Google

$0.7

輸入tokens/百萬

$2.8

輸出tokens/百萬

上下文長度

Gemini 2.5 Flash

Google

$2.1

輸入tokens/百萬

$17.5

輸出tokens/百萬

上下文長度

Claude Sonnet 4.5

Anthropic

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

qwen3-max

Alibaba

輸入tokens/百萬

$24

輸出tokens/百萬

256

上下文長度

Qianfan-Lightning

Baidu

輸入tokens/百萬

輸出tokens/百萬

128

上下文長度

Doubao-Seed-Translation

Bytedance

$1.2

輸入tokens/百萬

$3.6

輸出tokens/百萬

上下文長度

Qwen3-Next-80B-A3B-Instruct

Alibaba

輸入tokens/百萬

輸出tokens/百萬

256

上下文長度

qwen3-omni-flash-realtime

Alibaba

$3.9

輸入tokens/百萬

$15.2

輸出tokens/百萬

上下文長度

Doubao-Seed-1.6

Bytedance

$0.8

輸入tokens/百萬

輸出tokens/百萬

256

上下文長度

Doubao-1.5-pro-32k

Bytedance

$0.8

輸入tokens/百萬

輸出tokens/百萬

128

上下文長度

Doubao-Seed-1.6-flash

Bytedance

$0.15

輸入tokens/百萬

$1.5

輸出tokens/百萬

256

上下文長度

Qianfan-VL-8B

Baidu

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Qianfan-VL-70B

Baidu

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Hunyuan-T1-latest

Tencent

輸入tokens/百萬

輸出tokens/百萬

上下文長度

gpt-oss-20b

Openai

$0.4

輸入tokens/百萬

輸出tokens/百萬

128

上下文長度

Pangu-NLP-N2-128K-5.0.1.1

Huawei

輸入tokens/百萬

輸出tokens/百萬

128

上下文長度

Pangu-NLP-N2-32K-5.0.1.1

Huawei

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Qianfan-ToyTalk

Baidu

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Doubao-Seed-1.6-thinking

Bytedance

$0.8

輸入tokens/百萬

輸出tokens/百萬

256

上下文長度

MCP

VLLM Benchmark

一個基於MCP的vLLM交互式性能測試工具原型

python

10.9k

2.5分

Vllm

vLLM是一個高效、易用的LLM推理和服務庫，支持多種模型架構和優化技術，提供高性能的LLM服務。

智啟未來，您的人工智能解決方案智庫

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商務合作網站地圖

AI資訊

AMD 推出 vLLM-ATOM 插件，深度優化國產大模型推理表現

加速國產大模型：AMD推出vLLM-ATOM插件大幅提升推理效率

寒武紀宣佈實現 DeepSeek-V4全系列模型 Day0適配並開源優化代碼

寒武紀成功適配 DeepSeek-V4，推動 AI 模型高效運行

AI產品

Alpha-VLLM

vLLM

Skywork-MoE-Base

模型

Claude 3 Opus

Gemini 2.0 Flash

Gemini 2.5 Flash

Claude Sonnet 4.5

qwen3-max

Qianfan-Lightning

Doubao-Seed-Translation

Qwen3-Next-80B-A3B-Instruct

qwen3-omni-flash-realtime

Doubao-Seed-1.6

Doubao-1.5-pro-32k

Doubao-Seed-1.6-flash

Qianfan-VL-8B

Qianfan-VL-70B

Hunyuan-T1-latest

gpt-oss-20b

Pangu-NLP-N2-128K-5.0.1.1

Pangu-NLP-N2-32K-5.0.1.1

Qianfan-ToyTalk

Doubao-Seed-1.6-thinking

MiniMax M2 AWQ

Mistral Small 3.2 24B Instruct 2506 NVFP4

GLM 4.6 AWQ

DeepSeek V3.2 Exp AWQ

Qwen3 Next 80B A3B Instruct FP8 Dynamic

Gemma 3 27b It FP8

InternVL3_5 8B FP8 Dynamic

InternVL3_5 GPT OSS 20B A4B Preview FP8 Dynamic

InternVL3_5 30B A3B FP8 Dynamic

Seed OSS 36B Instruct MLX 8bit

Seed Oss 36b Instruct Fp16 Mlx

Gemma 3n E2B It Quantized.w4a16

Gemma 3n E2B It FP8 Dynamic

Qwen3 30B A3B Instruct 2507 AWQ

Devstral Small 2507 AWQ

Llama 4 Maverick 17B 128E Instruct Quantized.w4a16

Gemma 3 27b It Quantized.w4a16

DeepSeek R1 0528 AWQ

InternVL3 38B FP8 Dynamic

Bielik 1.5B V3.0 Instruct FP8 Dynamic

MCP

VLLM Benchmark

Vllm