美图AI开放平台发布Meitu CLI工具,将核心影像能力标准化封装,并接入OpenClaw生态,开放8种场景化影像能力。通过“开箱即用、按量付费”模式,降低技术门槛,助力个人与初创团队低成本打造专业视觉内容。
Cloudflare引入月之暗面开源模型Kimi K2.5,旨在提升算力性价比。该模型具备256k超大上下文窗口、优秀视觉处理能力和多轮工具调用稳定性,在编程和Agent任务中表现突出,已通过严格评估并应用于核心业务。
谷歌AI笔记工具NotebookLM推出信息图自定义样式功能,提供10种预设风格和完全自定义选项,用户可灵活调整视觉呈现,提升创作体验。
苹果推出专为零售员工设计的Sales Coach应用,取代旧版SEED工具,采用新设计语言提升视觉与交互体验,旨在优化内部销售支持流程。
一站式AI创作平台,融合视觉、视频、工具等多种创作能力
Nano Banana AI是先进图像生成与编辑器,用文本提示瞬间创惊艳视觉。
免费AI工具,无需注册,可将PDF快速转为含音频、动画和视觉效果的MP4视频
生成多镜头叙事视频的工具,具有高连贯性和视觉效果。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
-
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
prithivMLmods
CodeV是基于Qwen2.5-VL-7B-Instruct微调得到的70亿参数视觉语言模型,通过监督微调(SFT)和基于工具感知策略优化(TAPO)的强化学习(RL)两阶段训练,旨在实现可靠、可解释的视觉推理。它将视觉工具表示为可执行的Python代码,并通过奖励机制确保工具使用与问题证据一致,解决了高准确率下工具调用不相关的问题。
NewBie-AI
NewBie image Exp0.1 是一个基于 Next-DiT 架构开发的高效图像生成基础模型,专门用于生成高质量的动漫风格图像。它融合了先进的文本编码器和视觉组件,支持自然语言和结构化标签输入,是多角色动漫图像生成的强大工具。
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
bartowski
这是Qwen3-VL-2B-Instruct模型的量化版本,使用llama.cpp工具和imatrix方法生成了多种量化级别的模型文件,便于在不同硬件环境下高效运行。该模型是一个2B参数的多模态视觉语言模型,支持图像和文本的交互。
Mungert
Nanonets-OCR2-3B GGUF模型是专为文档处理设计的强大工具,能够将各类文档智能转换为结构化的Markdown格式,具备OCR、图像转文本、PDF转Markdown以及视觉问答等多种先进识别和处理能力。
这是Qwen3-VL-4B-Instruct模型的量化版本,使用llama.cpp工具和imatrix数据集生成多种量化类型的文件,支持在不同硬件条件下高效运行的多模态视觉语言模型。
gguf-org
FastVLM是由苹果公司开发的轻量级视觉语言模型,参数量为5亿,支持文本生成和视觉语言理解任务。该模型提供了多种量化版本,可通过gguf-connector工具便捷运行。
sothmik
这是一个基于Civitai平台的文本到图像生成模型,能够将文本描述转换为高质量的图像。模型支持通过量化工具进行优化,适用于创意设计和视觉内容生成。
unsloth
Devstral 1.1是专为软件工程任务设计的大语言模型,支持工具调用和视觉功能,适合代码库探索和多文件编辑。
xieji-x
基于视觉-语言预训练技术的零样本皮肤病评估模型,整合多方面知识增强,为皮肤病研究和诊断提供有效工具。
logasanjeev
一个强大的计算机视觉工具,能够对印度身份证文件进行分类、检测和文本提取
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
InternVL3-14B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。
InternVL3-2B-Instruct是先进的多模态大语言模型,相比前代有更出色的多模态感知和推理能力,扩展了工具使用、GUI代理、工业图像分析、3D视觉感知等方面。采用原生多模态预训练方法,将语言和视觉学习整合到单个预训练阶段。
InternVL3-78B是一款先进的多模态大语言模型,具备卓越的多模态感知和推理能力,在工具使用、GUI代理、工业图像分析、3D视觉感知等领域表现出色,整体文本性能也十分优秀。
InternVL3-14B是一个先进的多模态大语言模型,在InternVL 2.5基础上显著提升了多模态感知和推理能力,并拓展了工具使用、GUI代理、工业图像分析、3D视觉感知等领域的应用。
OpenGVLab
InternVL3-38B是一个先进的多模态大语言模型(MLLM),在多模态感知和推理能力上有显著提升,支持工具使用、GUI代理、工业图像分析、3D视觉感知等领域。
InternVL3-9B是InternVL3系列中的一款多模态大语言模型,具备卓越的多模态感知与推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种应用场景。
InternVL3-8B是OpenGVLab推出的先进多模态大语言模型,具备强大的多模态感知与推理能力,支持工具调用、GUI智能体、工业图像分析、3D视觉感知等新领域。
InternVL3-2B是OpenGVLab推出的先进多模态大语言模型(MLLM),具备卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等。
Peekaboo MCP是一个macOS工具,能够快速截取屏幕截图并通过AI分析内容,为AI助手提供视觉能力。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
展示计算机视觉工具与语言模型通过MCP的集成
VGGT-MPS是基于苹果芯片优化的3D视觉重建工具,使用Metal Performance Shaders加速,能够从单张或多张图像生成深度图、相机姿态和3D点云,支持稀疏注意力实现城市级重建。
Ollama MCP Server是一个连接Ollama本地大语言模型和模型上下文协议(MCP)的桥梁工具,提供完整的API集成、模型管理和执行功能,支持OpenAI兼容的聊天接口和视觉多模态模型。
OmniMCP是一个通过Model Context Protocol (MCP)和OmniParser为AI模型提供丰富UI上下文和交互能力的工具,专注于通过视觉分析、结构化规划和精确交互执行实现用户界面的深度理解。
专为AI视觉工作流优化的网页截图工具,自动将完整网页分割为1072x1072像素的图块,确保最佳处理效果,支持MCP集成和屏幕录制功能
MCP Hub是一个用于创建和管理模型上下文协议(MCP)服务器与客户端的框架,集成了UV工具以简化包管理和配置。项目包含AI相关的计算机视觉脚本和数据集处理工具,支持快速部署和开发。
OpticMCP是一个为AI助手提供摄像头和视觉工具的MCP服务器,支持USB摄像头、IP网络摄像头、屏幕捕捉、图像分析、二维码解码等多种功能,实现通用摄像头接口。
一个独立的MCP服务器,通过IbInputSimulator提供驱动程序级别的键盘鼠标输入控制工具,支持文本输入、快捷键、窗口管理等操作,无需UIA或视觉模块。
专为AI视觉工作流优化的网页截图工具,自动分块为1072x1072像素以适应Claude Vision API处理需求
ViperMCP是一个基于ViperGPT的混合专家视觉问答服务器,通过FastMCP提供可流式传输的MCP工具,支持视觉定位、组合图像问答和依赖外部知识的图像问答。
Glasses MCP是一个为AI助手提供网页视觉能力的工具,允许AI通过截图获取网页的视觉信息,支持多种设备和格式。
这是一个FiftyOne MCP服务器项目,允许用户通过AI助手(如ChatGPT和Claude)使用自然语言来探索和管理计算机视觉数据集。它提供了数据集管理、操作执行、插件安装和会话控制等功能,将FiftyOne的80多个内置操作符和插件生态系统暴露给AI工具。
MCP-hfspace是一个简化连接Hugging Face Spaces的服务器工具,支持图像生成、语音处理、视觉模型等多种AI功能,与Claude Desktop无缝集成。