阿里通义千问新增Qwen3-VL的2B和32B密集模型,覆盖轻量到高性能视觉语言场景,支持手机等设备运行。Instruct模型响应快、稳定性强,适合对话系统和工具调用;Thinking模型则侧重推理能力。扩展提升了开发便利性和应用灵活性。
阿里巴巴通义千问团队推出Qwen3-VL系列两款轻量级模型,参数规模分别为4B和8B。该系列是迄今最强的视觉语言模型家族,新增小参数版本旨在降低部署门槛,同时保持强劲性能。每个规模均提供指令遵循和思维链推理两个版本,为开发者提供更灵活选择。
阿里巴巴发布Qwen3-VL视觉语言模型紧凑版,含4亿和8亿参数变体,推动多模态AI在边缘设备应用。模型优化了STEM推理、视觉问答、OCR、视频理解等核心能力,性能媲美大型模型,实现技术重大突破。
硅基流动平台上线阿里Qwen3-VL开源模型,该模型在视觉理解、时序分析和多模态推理方面显著进步。它能有效应对图像模糊、视频复杂等难题,提升视觉认知能力,支持32种语言OCR功能,准确处理弱视觉信息,帮助用户轻松处理复杂视觉任务。
高效的开源专家混合视觉语言模型,具备多模态推理能力。
一款先进的视觉推理模型,能分析图片和视频内容。
Aya Vision 32B 是一个支持多语言的视觉语言模型,适用于OCR、图像描述、视觉推理等多种用途。
8亿参数的多语言视觉语言模型,支持OCR、图像描述、视觉推理等功能
openai
$14.4
Input tokens/M
$57.6
Output tokens/M
200k
Context Length
$7.92
$31.68
tencent
$18
32k
$3
$9
8k
xai
$72
131.1k
$1.08
$4.32
128k
meta
$2.52
$2.88
$0.43
bytedance
$1.5
$4.5
DavidAU
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,采用混合专家模型架构(MoE),提供GGUF格式权重,支持在CPU、GPU等设备上进行高效推理。模型在文本理解、视觉感知、空间理解、视频处理等方面全面升级。
Qwen3-VL-30B-A3B-Instruct是通义系列中最强大的视觉语言模型,采用混合专家模型架构,具备出色的文本理解与生成能力、深入的视觉感知与推理能力,支持256K长上下文和视频理解,可在多种设备上进行推理。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-8B-Instruct是通义系列中最强大的视觉语言模型,具备卓越的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL-4B-Instruct是通义系列最强大的视觉语言模型之一,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,支持在多种硬件设备上运行,具备卓越的多模态推理能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。