阿里发布多模态大模型Qwen3.7-Plus,在文本能力基础上增强视觉-语言功能,统一为智能体基座。该模型融合GUI与CLI交互,实现从原型到软件工程的端到端自动化,并在Vision Arena榜单中表现强劲。
英伟达发布全球首款全开源物理AI大模型Cosmos3,基于混合Transformer架构,融合视觉推理、世界生成与动作预测,将物理AI训练评估周期从数月缩短至数天,解决具身智能数据有限和仿真零散问题。
今日,开源模型Step3.7Flash正式发布,以Apache2.0协议开放权重,直击Agent时代效率、可靠性与多模态执行等核心痛点。在多项基准测试中表现突出:ClawEval-1.1获67.1分排名第一,SimpleVQA Search得79.2分居首,SWE-PRO以56.3分位列第二,V* Python得分高达95.3,展现了在Agent任务、代码生成及视觉执行等领域的实战能力。
奥比中光从传统硬件供应商转型为物理AI时代的“视觉基础设施提供商”,聚焦于解决机器人“看懂”物理世界的核心瓶颈。公司通过全栈式技术矩阵,精准卡位物理AI这一全球科技竞争新领域,致力于成为产业中台,推动大模型在真实空间中的落地应用。
OpenAI下一代AI图像生成模型,可免费在线试用,用于多类型视觉创作。
Caimera利用AI生成时尚、电商和广告模型,提升视觉效果促进销售。
NewYouGo是免费AI图像与视频生成平台,用先进模型秒速创建高质量视觉内容。
高效的视觉编码技术,提升视觉语言模型性能。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
DevQuasar
本项目提供了 Qwen/Qwen3-VL-32B-Thinking 的量化版本(Int4),致力于降低模型部署的硬件门槛,让先进的视觉语言模型知识为每个人所用。
prithivMLmods
CodeV是基于Qwen2.5-VL-7B-Instruct微调得到的70亿参数视觉语言模型,通过监督微调(SFT)和基于工具感知策略优化(TAPO)的强化学习(RL)两阶段训练,旨在实现可靠、可解释的视觉推理。它将视觉工具表示为可执行的Python代码,并通过奖励机制确保工具使用与问题证据一致,解决了高准确率下工具调用不相关的问题。
ActIO-UI-7B-RLVR 是由 Uniphore 发布的 70 亿参数视觉语言模型,专门用于计算机界面自动化任务。它基于 Qwen2.5-VL-7B-Instruct,通过监督微调和可验证奖励的强化学习进行优化,在 GUI 导航、元素定位和交互规划等任务上表现出色,在 WARC-Bench 基准测试中达到了开源 7B 模型的领先水平。
meituan-longcat
长猫图像编辑是长猫图像(Longcat-Image)的图像编辑版本,是一个支持中英双语的开源图像编辑模型。它在指令遵循、图像质量和视觉一致性方面达到了开源模型的先进水平,具备出色的精准编辑能力和一致性保留能力。
rujutashashikanjoshi
这是一个基于YOLOv12 Medium架构,在自定义数据集上微调的目标检测模型。该模型专门用于高效、准确地检测图像或视频中的无人机目标,为计算机视觉应用提供支持。
NewBie-AI
NewBie image Exp0.1 是一个基于 Next-DiT 架构开发的高效图像生成基础模型,专门用于生成高质量的动漫风格图像。它融合了先进的文本编码器和视觉组件,支持自然语言和结构化标签输入,是多角色动漫图像生成的强大工具。
gguf-org
flux2-dev-gguf 是一个基于 FLUX.2-dev 的图像到图像转换模型,专门用于根据文本提示生成特定风格的图像。该模型支持在 ComfyUI 环境中运行,能够将文本描述转换为风格化的视觉内容。
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4b是一款先进的ColPali风格多模态嵌入模型,能够将文本查询、视觉文档(如图像、PDF)或短视频映射为对齐的多向量嵌入。该模型结合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的优势,在ViDoRe基准测试中表现出色,同时显著减少了嵌入占用空间。
MuXodious
Gemma 3n E4B IT 是谷歌推出的轻量级多模态开放模型,基于与Gemini模型相同的研究构建。该模型支持文本、音频和视觉输入,适用于多种任务,采用MatFormer架构实现高效参数利用。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
aisingapore
Qwen-SEA-LION-v4-4B-VL 是一个基于 Qwen3-VL-4B-Instruct 架构构建的 40 亿参数视觉语言模型。它专门针对东南亚地区进行了指令微调,具备多语言和多元文化能力,支持英语及七种东南亚语言,并保留了强大的视觉-语言理解能力。
XiaomiMiMo
米模具身模型(MiMo-Embodied)是一款强大的跨具身视觉语言模型,在自动驾驶和具身AI任务中均展现出了卓越的性能。它是首个将这两个关键领域相结合的开源视觉语言模型,显著提升了在动态物理环境中的理解和推理能力。
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
noctrex
Jan-v2-VL是一款具有80亿参数的视觉语言模型,专为在真实软件环境(如浏览器和桌面应用程序)中执行长时、多步骤任务而设计。它将语言推理与视觉感知相结合,能够遵循复杂指令、维持中间状态,并从轻微执行错误中恢复。
Jan-v2-VL 是一个拥有80亿参数的视觉语言模型,专为在浏览器和桌面应用程序等真实软件环境中执行长周期、多步骤任务而设计。它将语言推理与视觉感知紧密结合,能够遵循复杂指令、维持中间状态并从轻微执行错误中恢复,实现稳定且持续的任务完成。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8是基于百度ERNIE-4.5架构的多模态大语言模型,通过AWQ量化技术实现8位精度,在保持高性能的同时大幅降低内存需求。该模型在视觉推理、STEM问题解决、图像分析等方面表现出色,具备强大的多模态理解和推理能力。
HIT-TMG
Uni-MoE 2.0-Image 是基于 Uni-MoE 2.0-Omni 派生而来的视觉生成模型,在视觉生成数据上进行了专门微调,具备强大的图像生成和编辑能力。
NyxKrage
Moondream 3 Preview HF是基于HuggingFace Transformers架构规范对Moondream 3 (Preview)模型的重新实现,使其能够与Hugging Face生态系统完全兼容。这是一个多模态视觉语言模型,采用专家混合(MoE)文本主干,约90亿参数,20亿活跃参数。
facebook
SAM 3 是 Meta 推出的第三代可提示分割基础模型,能够利用文本或视觉提示(点、框、掩码)来检测、分割和跟踪图像与视频中的对象。与前代相比,SAM 3 引入了对开放词汇概念所有实例进行详尽分割的能力,支持大量开放词汇提示,在 SA-CO 基准上达到人类表现的 75-80%。
renderartist
Technically Color WAN 2.2是一款专为生成经典电影风格图像而设计的LoRA模型,通过鲜艳调色板、丰富饱和度和戏剧性灯光效果,让生成的图像具有经典电影的独特视觉魅力。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
展示计算机视觉工具与语言模型通过MCP的集成
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
YOLO MCP服务是一个强大的计算机视觉服务,通过模型上下文协议(MCP)与Claude AI集成,提供物体检测、分割、分类和实时摄像头分析功能。
基于Open-AutoGLM构建的安卓设备自动化MCP服务,通过ADB连接手机并调用视觉模型,可接入小智AI实现智能控制。
这是一个基于模型上下文协议(MCP)的服务器,允许AI助手通过远程控制API来控制Unreal Engine游戏引擎,实现游戏开发自动化,支持资产管理、角色控制、编辑器操作、关卡管理、动画物理、视觉效果、Sequencer等多种功能。
Ollama MCP Server是一个连接Ollama本地大语言模型和模型上下文协议(MCP)的桥梁工具,提供完整的API集成、模型管理和执行功能,支持OpenAI兼容的聊天接口和视觉多模态模型。
DINO-X MCP是一个通过DINO-X和Grounding DINO 1.6 API赋能大型语言模型进行细粒度目标检测和图像理解的项目。它能够实现精确的对象定位、计数、属性分析以及场景理解,支持自然语言驱动的视觉任务和工作流集成。
OmniMCP是一个通过Model Context Protocol (MCP)和OmniParser为AI模型提供丰富UI上下文和交互能力的工具,专注于通过视觉分析、结构化规划和精确交互执行实现用户界面的深度理解。
一个基于OpenRouter视觉模型的MCP图像分析服务器
MCP Hub是一个用于创建和管理模型上下文协议(MCP)服务器与客户端的框架,集成了UV工具以简化包管理和配置。项目包含AI相关的计算机视觉脚本和数据集处理工具,支持快速部署和开发。
MCP OpenVision是一个基于OpenRouter视觉模型的图像分析服务器,为AI助手提供图像分析能力。
Moondream MCP Server是一个强大的模型上下文协议服务器,通过Moondream视觉模型为应用程序提供高级图像分析功能,并与Claude和Cline无缝集成。
一个通过adb操作安卓设备的MCP服务,支持应用管理、屏幕控制、输入手势和设备信息获取等功能,并可集成视觉模型进行屏幕内容分析。
DINO-X MCP是一个结合大型语言模型与DINO-X、Grounding DINO 1.6 API的项目,旨在实现细粒度物体检测和图像理解,支持自然语言驱动的视觉任务和自动化场景。
OmniMCP是一个通过Model Context Protocol (MCP)和OmniParser为AI模型提供丰富UI上下文和交互能力的项目,支持视觉感知、LLM规划、动作执行等功能,实现用户界面的深度理解和精准交互。
OpenRouter图像MCP服务器为AI代理提供强大的图像分析能力,支持多种视觉模型,可分析照片、网页截图、移动应用界面等视觉内容
Playwright MCP是一个基于Playwright的浏览器自动化服务器,通过结构化可访问性快照与网页交互,无需依赖视觉模型或截图,提供轻量级、高效的网页操作能力。
基于OpenAI视觉模型的OCR服务,集成Cursor IDE实现图片文字自动提取与保存