腾讯混元开源10亿参数OCR模型HunyuanOCR,采用端到端设计,集成视频编码器、视觉适配器和轻量化语言模型,在多项榜单获SOTA成绩,以体积小、部署便捷为核心优势,提供高效OCR解决方案。
国内首个全模态实时交互视觉语言模型VisualGPT在青岛发布,用户可上传图片视频并直接圈选提问,模型秒级返回答案、代码或3D场景,同步开放智能体训练平台及算力资源,推动AI交互进入视觉界面即时互动新阶段。
在虹桥论坛上,宇树科技CEO王兴兴指出,机器人大模型发展尚处早期,相当于ChatGPT发布前1-3年水平。虽方向正确,但距突破临界点仍有差距。他肯定生成式AI在语言视觉领域进展,强调人形机器人领域需持续创新突破。
小鹏汽车在2025科技日发布第二代VLA模型,实现从视觉信号到动作指令的端到端输出,突破传统架构,无需语言转译。该模型成为首个量产物理世界大模型,为智能驾驶、机器人和飞行汽车等领域提供智能基础,能力突出。
高效的视觉编码技术,提升视觉语言模型性能。
AnyParser是首个具有准确性和速度的文档解析LLM,可从PDF、PowerPoint和图片中精确提取文本、表格、图表和布局信息。
高效的开源专家混合视觉语言模型,具备多模态推理能力。
基于Gemini 2.0的机器人模型,将AI带入物理世界,具备视觉、语言和动作能力。
openai
$18
Input tokens/M
$72
Output tokens/M
128k
Context Length
tencent
$3
$9
8k
baidu
$15
32k
xai
$14.4
131.1k
meta
$2.52
$2.88
$0.43
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
coder3101
这是基于Qwen/Qwen3-VL-32B-Instruct的去审查版本,使用Heretic v1.0.1制作。该模型是一个强大的视觉语言模型,具备先进的视觉理解、文本理解和多模态推理能力,支持图像分析、视频理解、界面操作等多种任务。
XiaomiMiMo
米模具身模型(MiMo-Embodied)是一款强大的跨具身视觉语言模型,在自动驾驶和具身AI任务中均展现出了卓越的性能。它是首个将这两个关键领域相结合的开源视觉语言模型,显著提升了在动态物理环境中的理解和推理能力。
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
noctrex
Jan-v2-VL是一款具有80亿参数的视觉语言模型,专为在真实软件环境(如浏览器和桌面应用程序)中执行长时、多步骤任务而设计。它将语言推理与视觉感知相结合,能够遵循复杂指令、维持中间状态,并从轻微执行错误中恢复。
prithivMLmods
Jan-v2-VL 是一个拥有80亿参数的视觉语言模型,专为在浏览器和桌面应用程序等真实软件环境中执行长周期、多步骤任务而设计。它将语言推理与视觉感知紧密结合,能够遵循复杂指令、维持中间状态并从轻微执行错误中恢复,实现稳定且持续的任务完成。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8是基于百度ERNIE-4.5架构的多模态大语言模型,通过AWQ量化技术实现8位精度,在保持高性能的同时大幅降低内存需求。该模型在视觉推理、STEM问题解决、图像分析等方面表现出色,具备强大的多模态理解和推理能力。
NyxKrage
Moondream 3 Preview HF是基于HuggingFace Transformers架构规范对Moondream 3 (Preview)模型的重新实现,使其能够与Hugging Face生态系统完全兼容。这是一个多模态视觉语言模型,采用专家混合(MoE)文本主干,约90亿参数,20亿活跃参数。
DavidAU
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
DevQuasar
这是一个基于Moonshot AI技术的量化版本模型,专注于视觉语言理解与生成任务,致力于降低知识获取门槛,让知识为每个人所用。
samwell
NV-Reason-CXR-3B GGUF是NVIDIA NV-Reason-CXR-3B视觉语言模型的量化版本,专为边缘设备部署优化。这是一个30亿参数的模型,专注于胸部X光分析,已转换为GGUF格式并进行量化处理,可在移动设备、桌面设备和嵌入式系统上高效运行。
ggml-org
这是一个基于Qwen3-VL-30B-A3B-Instruct模型转换的GGUF格式版本,专门为llama.cpp优化。该模型是一个300亿参数的多模态视觉语言模型,支持图像理解和文本生成任务。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是阿里巴巴推出的新一代视觉语言模型,在文本理解、视觉感知、空间理解、长上下文处理和智能体交互等方面全面升级,支持从边缘设备到云端的灵活部署。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
展示计算机视觉工具与语言模型通过MCP的集成
Ollama MCP Server是一个连接Ollama本地大语言模型和模型上下文协议(MCP)的桥梁工具,提供完整的API集成、模型管理和执行功能,支持OpenAI兼容的聊天接口和视觉多模态模型。
DINO-X MCP是一个通过DINO-X和Grounding DINO 1.6 API赋能大型语言模型进行细粒度目标检测和图像理解的项目。它能够实现精确的对象定位、计数、属性分析以及场景理解,支持自然语言驱动的视觉任务和工作流集成。
DINO-X MCP是一个结合大型语言模型与DINO-X、Grounding DINO 1.6 API的项目,旨在实现细粒度物体检测和图像理解,支持自然语言驱动的视觉任务和自动化场景。