小鹏汽车在2025科技日发布第二代VLA模型,实现从视觉信号到动作指令的端到端输出,突破传统架构,无需语言转译。该模型成为首个量产物理世界大模型,为智能驾驶、机器人和飞行汽车等领域提供智能基础,能力突出。
IBM推出Granite4.0Nano系列小型AI模型,专为本地和边缘推理设计,含8个模型,分350M和1B两种规模。采用混合SSM与变换器架构,支持基础和指令模式,基于Apache2.0开源许可,兼容vLLM等流行运行时,提升企业控制力。
寒武纪成功适配DeepSeek-V3.2-Exp实验模型并开源vLLM-MLU推理引擎,推动AI技术发展。该模型在功能效率上创新突破,标志寒武纪大模型软件生态建设取得重要进展,为开发者提供新工具,增强行业信心。
Moondream3.0预览版以轻量高效的混合专家架构(总参9B,激活仅2B)引领视觉语言模型革新。它在复杂场景中表现卓越,多项基准测试超越GPT-5、Gemini和Claude4等主流模型。相比擅长验证码识别的2.0版,3.0版显著扩展了视觉推理能力,引发AI社区广泛关注。
高效的开源专家混合视觉语言模型,具备多模态推理能力。
Proxy Lite 是一款开源的 3B 参数视觉语言模型(VLM),专注于网页自动化任务。
olmOCR-7B-0225-preview 是一个基于 Qwen2-VL-7B-Instruct 微调的文档图像识别模型,用于高效转换文档为纯文本。
VLM-R1 是一个稳定且通用的强化视觉语言模型,专注于视觉理解任务。
baidu
$3
输入tokens/百万
$15
输出tokens/百万
32k
上下文长度
QuantTrio
MiniMax-M2-AWQ是基于MiniMaxAI/MiniMax-M2模型的量化版本,通过vLLM框架实现高效的文本生成。该模型采用AWQ量化技术,在保持模型性能的同时显著减少内存占用和提升推理速度,支持32K上下文长度和工具调用功能。
nvidia
NVIDIA Nemotron Nano v2 12B VL是一款强大的多模态视觉语言模型,支持多图像推理和视频理解,具备文档智能、视觉问答和摘要功能,可用于商业用途。
bullpoint
GLM-4.6-AWQ是对智谱AI的GLM-4.6(357B MoE)进行高性能AWQ量化的模型,专为vLLM推理进行了优化,能有效提升生产部署的吞吐量。该模型采用4位量化技术,在保持高精度的同时显著减少显存占用。
DeepSeek-V3.2-Exp-AWQ是基于DeepSeek-V3.2-Exp模型的量化版本,通过vLLM框架实现高效文本生成。该模型引入了DeepSeek稀疏注意力机制,在长上下文训练和推理效率上有显著提升,同时保持了模型输出质量。
VLA-Adapter
VLA-Adapter是一种在Libero-Spatial上训练的微型视觉语言动作模型,采用Prismatic-VLM架构,仅使用Qwen2.5-0.5B作为大语言模型主干。该模型在机器人基准测试中超越了参数规模更大的开源VLA模型,实现了高性能的视觉-语言-动作理解与执行。
TheClusterDev
这是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通过vLLM框架支持,在保持模型质量的同时显著减小了模型体积,提升了推理效率。
pytorch
这是由PyTorch团队开发的FP8量化版本Gemma-3-27B模型,基于google/gemma-3-27b-it进行FP8量化处理。该模型通过vLLM和Transformers两种方式支持高效推理,在保持模型质量的同时显著降低了内存使用并提升了推理速度。
brandonbeiler
这是OpenGVLab/InternVL3_5-8B的fp8动态(w8a8)量化版本,针对vLLM高性能推理进行了优化。采用FP8动态量化技术,在保持视觉理解能力的同时显著减少内存占用并提升推理速度。
这是InternVL3_5-GPT-OSS-20B-A4B-Preview模型的FP8动态量化版本,采用w8a8技术优化,专门针对vLLM进行高性能推理部署。该模型在保持视觉语言理解能力的同时,显著提升了推理速度和内存效率。
这是OpenGVLab/InternVL3_5-30B-A3B的fp8动态(w8a8)量化版本,针对vLLM高性能推理优化,采用FP8动态量化技术,内存占用减少约50%,推理速度显著提升
lmstudio-community
Seed-OSS-36B-Instruct是由ByteDance-Seed开发的大型语言模型,参数量达360亿,采用Apache-2.0开源许可证。该模型基于transformers库构建,支持vllm和mlx技术优化,特别针对苹果Silicon芯片进行了8位量化处理,提供高效的文本生成能力。
dnakov
Seed-OSS-36B-Instruct是字节跳动开发的文本生成模型,基于36B参数规模的大语言模型架构,专门针对指令跟随任务进行优化。该模型支持中英文双语,采用Apache-2.0开源许可证,可通过vllm和mlx推理框架进行高效部署。
RedHatAI
这是 Google Gemma-3n-E2B-it 模型的量化版本,通过将权重量化为 INT4 数据类型进行优化,可使用 vLLM 框架进行高效推理。该模型支持音频-视觉-文本多模态输入,输出为文本。
这是一个基于Google Gemma-3n-E2B-it的量化版本模型,采用FP8数据类型进行权重和激活量化,支持音频、视觉和文本多模态输入,输出为文本。模型通过vLLM实现高效部署,在保持高精度的同时显著提升推理效率。
ELVISIO
Qwen3-30B-A3B-Instruct-2507-AWQ 是 Qwen3-30B-A3B-Instruct-2507 的 AWQ int4 量化版本,具有 305 亿总参数和 33 亿激活参数。该模型在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等方面有显著改进,支持 256K 长上下文理解能力,可与 Transformers 和 vLLM 兼容高效进行文本生成。
btbtyler09
Devstral-Small-2507-AWQ是基于mistralai/Devstral-Small-2507模型派生的量化版本,采用AutoAWQ技术进行4位量化,专为在vLLM推理引擎上高效运行而优化。
unsloth
GLM-4.1V-9B-Thinking 是基于视觉语言模型(VLM)开发的开源模型,旨在探索视觉语言模型推理能力的上限。它通过引入'思维范式'和强化学习,显著提升了模型能力,在10B参数的VLM中达到了领先水平。
GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型,专门探索视觉语言模型推理能力的上限。它引入'思考范式'并利用强化学习显著增强能力,在10B参数的VLM中表现卓越,在多项基准任务中媲美甚至超越更大参数的模型。
dengcao
GLM-4.1V-9B-Thinking是一款强大的视觉语言模型(VLM),专注于多模态理解和推理,通过AWQ量化版本提供高效推理能力。
zai-org
GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型,通过引入'思维范式'和强化学习显著提升了模型性能,在100亿参数的VLMs中达到了领先水平,在18项基准任务中与甚至超越了720亿参数的Qwen-2.5-VL-72B。
一个基于VLC媒体播放器的MCP服务器,支持通过MCP客户端远程控制和播放视频。适用于Linux系统,可通过Signal等客户端实现远程电影播放控制。
一个基于MCP的vLLM交互式性能测试工具原型
vLLM是一个高效、易用的LLM推理和服务库,支持多种模型架构和优化技术,提供高性能的LLM服务。