最好的vLLM AI工具模型_精选vLLM资讯

AI资讯

AMD 推出 vLLM-ATOM 插件，深度优化国产大模型推理表现

AMD发布vLLM-ATOM插件，旨在不改变现有工作流的前提下，充分挖掘硬件潜力，为DeepSeek-R1、Kimi-K2等主流大语言模型推理显著提速。vLLM本身是优化高并发场景吞吐量与显存利用率的开源框架，专注请求调度和缓存管理，ATOM插件则进一步强化了这一能力。

14.9k 30 分钟前

加速国产大模型：AMD推出vLLM-ATOM插件大幅提升推理效率

AMD发布vLLM-ATOM插件，专为大语言模型部署优化，在不改变现有工作流下，显著提升DeepSeek-R1、Kimi-K2等国产大模型在AMD硬件上的推理性能。该插件针对Instinct系列GPU定制，利用vLLM框架的高显存利用率优势，让开发者以低学习成本实现技术迁移，获得性能平滑升级。

20.2k 18 小时前

寒武纪宣布实现 DeepSeek-V4全系列模型 Day0适配并开源优化代码

寒武纪宣布完成对DeepSeek-V4全系列模型的“Day0”适配，基于vLLM推理框架，覆盖285B参数Flash版及1.6T参数Pro版。通过自研Torch-MLU-Ops算子库优化稀疏注意力与压缩结构，确保模型发布当日即可在寒武纪硬件上稳定运行，相关代码已开源至GitHub。

19.6k 2 小时前

寒武纪成功适配 DeepSeek-V4，推动 AI 模型高效运行

寒武纪公司宣布，已成功完成对深度求索公司开源AI模型DeepSeek-V4的Day 0适配，实现发布当天即稳定运行。通过自研融合算子库Torch-MLU-Ops，对模型中的Compressor、mHC等模块进行针对性加速，大幅提升推理效率。同时采用vLLM推理框架，为用户带来更高效的人工智能体验。

17.7k 40 分钟前

AI产品

Alpha-VLLM

多功能文本到多模态内容生成框架

AI模型

9.9k

vLLM

快速易用的LLM推理和服务平台

开发与工具

14.5k

Skywork-MoE-Base

1460亿参数的高性能混合专家模型

AI模型

10k

模型

Grok 4 Fast

Xai

$1.4

输入tokens/百万

$3.5

输出tokens/百万

上下文长度

Claude 3 Opus

Anthropic

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

Gemini 2.0 Flash

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

Claude Haiku 4.5

Anthropic

输入tokens/百万

$35

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash

Google

$2.1

输入tokens/百万

$17.5

输出tokens/百万

上下文长度

Claude Sonnet 4.5

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Claude 3 Sonnet

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

qwen3-max

Alibaba

输入tokens/百万

$24

输出tokens/百万

256

上下文长度

Qianfan-Lightning

Baidu

输入tokens/百万

输出tokens/百万

128

上下文长度

Doubao-Seed-Translation

Bytedance

$1.2

输入tokens/百万

$3.6

输出tokens/百万

上下文长度

Qwen3-Next-80B-A3B-Instruct

Alibaba

输入tokens/百万

输出tokens/百万

256

上下文长度

qwen3-omni-flash-realtime

Alibaba

$3.9

输入tokens/百万

$15.2

输出tokens/百万

上下文长度

Doubao-Seed-1.6

Bytedance

$0.8

输入tokens/百万

输出tokens/百万

256

上下文长度

Kimi-K2

Moonshot

输入tokens/百万

$16

输出tokens/百万

256

上下文长度

Doubao-1.5-pro-32k

Bytedance

$0.8

输入tokens/百万

输出tokens/百万

128

上下文长度

Doubao-Seed-1.6-flash

Bytedance

$0.15

输入tokens/百万

$1.5

输出tokens/百万

256

上下文长度

Qianfan-VL-8B

Baidu

输入tokens/百万

输出tokens/百万

上下文长度

Qianfan-VL-70B

Baidu

输入tokens/百万

输出tokens/百万

上下文长度

Hunyuan-T1-latest

Tencent

输入tokens/百万

输出tokens/百万

上下文长度

DeepSeek-V3.1

Deepseek

输入tokens/百万

$12

输出tokens/百万

128

上下文长度

MCP

VLLM Benchmark

一个基于MCP的vLLM交互式性能测试工具原型

python

9.4k

2.5分

Vllm

vLLM是一个高效、易用的LLM推理和服务库，支持多种模型架构和优化技术，提供高性能的LLM服务。

智启未来，您的人工智能解决方案智库

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图

AI资讯

AMD 推出 vLLM-ATOM 插件，深度优化国产大模型推理表现

加速国产大模型：AMD推出vLLM-ATOM插件大幅提升推理效率

寒武纪宣布实现 DeepSeek-V4全系列模型 Day0适配并开源优化代码

寒武纪成功适配 DeepSeek-V4，推动 AI 模型高效运行

AI产品

Alpha-VLLM

vLLM

Skywork-MoE-Base

模型

Grok 4 Fast

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

qwen3-max

Qianfan-Lightning

Doubao-Seed-Translation

Qwen3-Next-80B-A3B-Instruct

qwen3-omni-flash-realtime

Doubao-Seed-1.6

Kimi-K2

Doubao-1.5-pro-32k

Doubao-Seed-1.6-flash

Qianfan-VL-8B

Qianfan-VL-70B

Hunyuan-T1-latest

DeepSeek-V3.1

MiniMax M2 AWQ

Mistral Small 3.2 24B Instruct 2506 NVFP4

GLM 4.6 AWQ

DeepSeek V3.2 Exp AWQ

Qwen3 Next 80B A3B Instruct FP8 Dynamic

Gemma 3 27b It FP8

InternVL3_5 8B FP8 Dynamic

InternVL3_5 GPT OSS 20B A4B Preview FP8 Dynamic

InternVL3_5 30B A3B FP8 Dynamic

Seed OSS 36B Instruct MLX 8bit

Seed Oss 36b Instruct Fp16 Mlx

Gemma 3n E2B It Quantized.w4a16

Gemma 3n E2B It FP8 Dynamic

Qwen3 30B A3B Instruct 2507 AWQ

Devstral Small 2507 AWQ

Llama 4 Maverick 17B 128E Instruct Quantized.w4a16

Gemma 3 27b It Quantized.w4a16

DeepSeek R1 0528 AWQ

InternVL3 38B FP8 Dynamic

Bielik 1.5B V3.0 Instruct FP8 Dynamic

MCP

VLLM Benchmark

Vllm