字节跳动联合高校推出Sa2VA模型,结合LLaVA视觉语言模型与SAM-2分割模型,能理解视频内容并精确追踪分割角色和物体。LLaVA擅长宏观叙事,SAM-2精于细节分割,互补提升视频分析能力。
阿里巴巴发布Qwen3-VL视觉语言模型紧凑版,含4亿和8亿参数变体,推动多模态AI在边缘设备应用。模型优化了STEM推理、视觉问答、OCR、视频理解等核心能力,性能媲美大型模型,实现技术重大突破。
硅基流动平台上线阿里Qwen3-VL开源模型,该模型在视觉理解、时序分析和多模态推理方面显著进步。它能有效应对图像模糊、视频复杂等难题,提升视觉认知能力,支持32种语言OCR功能,准确处理弱视觉信息,帮助用户轻松处理复杂视觉任务。
上海交大与剑桥大学团队开发Evo模型,通过注入3D几何先验,提升机器人对三维空间的理解能力,解决了传统视觉语言模型依赖二维数据的局限,显著增强复杂任务表现。
AI辅助的视觉UI开发工具,通过精确的DOM信息和自然语言描述帮助AI准确理解您的UI修改意图。
Aya Vision 是 Cohere 推出的多语言多模态视觉模型,旨在提升多语言场景下的视觉和文本理解能力。
VLM-R1 是一个稳定且通用的强化视觉语言模型,专注于视觉理解任务。
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
openai
$18
Input tokens/M
$72
Output tokens/M
128k
Context Length
tencent
$3
$9
8k
baidu
$15
32k
xai
$14.4
131.1k
meta
$2.52
$2.88
Lamapi
Next 12B是基于Gemma 3的120亿参数多模态视觉语言模型,是土耳其最先进的开源视觉语言模型。该模型在文本和图像理解方面表现出色,具备先进的推理和上下文感知多模态输出能力,特别提供专业级的土耳其语支持,同时具备广泛的多语言能力。
mlx-community
DeepSeek-OCR-8bit是基于DeepSeek-OCR模型转换的MLX格式版本,专门针对苹果芯片优化的视觉语言模型,支持多语言OCR识别和图像文本理解任务。
quocnguyen
该模型是基于DeepSeek-OCR转换的MLX格式视觉语言模型,专门用于光学字符识别(OCR)任务,支持多语言文本识别和图像理解
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
QuantTrio
Qwen3-VL-32B-Thinking-AWQ是基于Qwen/Qwen3-VL-32B-Thinking模型的量化版本,是通义系列中最强大的视觉语言模型。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解,适用于图像文本到文本的转换任务。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
unsloth
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
nvidia
NVIDIA Nemotron Nano v2 12B VL是一款强大的多模态视觉语言模型,支持多图像推理和视频理解,具备文档智能、视觉问答和摘要功能,可用于商业用途。
lightonai
LightOnOCR-1B-1025是一款紧凑的端到端视觉语言模型,专门用于光学字符识别和文档理解。它在同权重级别中实现了最先进的准确率,同时比大型通用视觉语言模型更快、成本更低。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、增强的空间和视频理解能力,以及强大的智能体交互能力。该模型为2B参数的思考版,专门增强推理能力。
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知与推理能力、长上下文支持以及增强的空间和视频动态理解能力。
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL-32B-Thinking-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化技术,性能指标与原始BF16模型几乎相同。该模型具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的全面升级,具备卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、更强的空间和视频动态理解能力,以及更出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频理解能力,以及出色的智能体交互能力。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
这是Qwen3-VL-4B-Instruct模型的4位量化版本,专门针对Apple Silicon芯片优化,使用MLX框架转换。该模型是一个视觉语言模型,支持图像理解和多模态对话任务。
cpatonn
Qwen3-VL是通义系列最强大的视觉语言模型,实现全方位综合升级,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
DINO-X MCP是一个通过DINO-X和Grounding DINO 1.6 API赋能大型语言模型进行细粒度目标检测和图像理解的项目。它能够实现精确的对象定位、计数、属性分析以及场景理解,支持自然语言驱动的视觉任务和工作流集成。
DINO-X MCP是一个结合大型语言模型与DINO-X、Grounding DINO 1.6 API的项目,旨在实现细粒度物体检测和图像理解,支持自然语言驱动的视觉任务和自动化场景。