千问AI PPT于4月22日完成“PPT Agent”重大升级,采用全新智能体架构,实现从内容构思、素材检索到视觉排版的全流程自动化。用户输入需求后,1-3分钟即可生成可下载的标准PPT文件,并支持批量上传最多10个文件(含文档),大幅提升办公效率与质量。
OpenAI发布ChatGPT Images2.0,基于GPT Image2模型,核心亮点是增强AI的“思考能力”,使其更像具备逻辑的创作者。新版本引入推理规划功能,生成图像前会进行联网信息检索和逻辑分析,改变了以往“开盲盒”式的生图模式,提升了复杂视觉任务的处理能力。
苹果iOS27系统将大幅升级Apple Intelligence,重点增强“视觉智能”功能。新系统不仅适用于手机,还将拓展至智能眼镜和带摄像头的AirPods等穿戴设备,旨在提升设备对现实世界的感知能力。通过先进的视觉识别技术,帮助用户更高效地处理物理世界中的图文信息。
NVIDIA发布首个开源量子AI模型“NVIDIA Ising”,旨在解决量子处理器校准和纠错两大难题。该模型包含Ising Calibration和Ising Decoding两部分,其中Ising Calibration作为350亿参数的视觉语言模型,可将校准时间从数天缩短至数小时,显著提升量子计算实用化效率。
Himedia是AI影片与图片生成器,可快速制作专业内容,转化视觉效果。
HowToPose.ai利用先进AI调整照片姿势、设计视频动作,提升视觉呈现。
用AI即时生成专业产品图片、生活方式图像和视频,秒变品牌视觉资产
一款领先的AI信息图表生成器,只需一键即可将创意转化为专业视觉图表。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
-
$1
$10
256
$2
$20
Baidu
128
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
XiaomiMiMo
米模具身模型(MiMo-Embodied)是一款强大的跨具身视觉语言模型,在自动驾驶和具身AI任务中均展现出了卓越的性能。它是首个将这两个关键领域相结合的开源视觉语言模型,显著提升了在动态物理环境中的理解和推理能力。
DevQuasar
这是一个基于Moonshot AI技术的量化版本模型,专注于视觉语言理解与生成任务,致力于降低知识获取门槛,让知识为每个人所用。
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
deepseek-ai
DeepSeek-OCR是DeepSeek AI开发的一款先进的光学字符识别模型,专注于探索视觉文本压缩的边界,能够高效地从图像中提取和转换文本内容。
cpatonn
GLM-4.5V-AWQ-4bit是基于智谱AI下一代旗舰文本基础模型构建的量化版本多模态模型,通过AWQ-4bit量化技术优化,在保持优异性能的同时显著降低计算资源需求。该模型在42个公开视觉语言基准测试中达到同规模模型的SOTA性能,具备强大的视觉推理能力。
facebook
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调即可在广泛的视觉任务中超越专门的先进模型。该模型采用自监督学习方式,生成高质量的密集特征,在图像分类、分割、深度估计等多种任务中表现出色。
DINOv3是Meta AI开发的多功能视觉基础模型,无需微调就能在广泛视觉任务中超越专业模型。该模型能生成高质量密集特征,在各种视觉任务中表现出色,显著超越了以往的自监督和弱监督基础模型。
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调就能在多种视觉任务中超越专门的先进模型。该模型采用Vision Transformer架构,在16.89亿张网络图像上预训练,能生成高质量的密集特征,在图像分类、分割、检索等任务中表现出色。
zai-org
GLM-4.1V-9B-Base是智谱AI开发的开源视觉语言基础模型,拥有90亿参数,专注于多模态推理能力,支持中英双语,处理高达4K分辨率的图像和64K上下文长度。
deepseek-community
DeepSeek-VL是由DeepSeek AI团队开发的开源视觉语言模型,能够同时处理文本和图像信息,生成上下文相关的回复。该模型采用混合视觉编码器,支持高分辨率图像处理,在真实世界的视觉语言理解应用中表现出色。
RedHatAI
Llama-4-Scout是Meta推出的Llama 4系列模型之一,采用混合专家(MoE)架构,是原生多模态AI模型,支持文本和图像输入,在多语言文本理解和视觉任务方面表现出色。该模型具有17B参数,16个专家,专为商业和研究用途设计。
fahadh4ilyas
Llama 4系列是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像交互,在多种语言和视觉任务中表现卓越。
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
aiwithoutborders-xyz
这是一个在法医应用中检测AI生成图像的视觉Transformer模型,训练于迄今为止最大的数据集。
buildborderless
这是一个基于视觉Transformer架构的图像分类模型,专门用于检测AI生成的图像,为法医应用提供支持。模型在包含270万张图像的大规模数据集上训练,涵盖15+个生成器和4600+个模型。
cortexso
Deepscaler是一款基于DeepScaleR-1.5B-Preview开发的高级AI模型,专注于提升机器学习任务的效率与可扩展性。该模型提供高质量的预测分析和数据处理能力,适用于自然语言处理、计算机视觉等复杂场景,在金融、医疗和娱乐等行业有广泛应用。
MahmoodLab
UNI 2是由哈佛大学/布莱根妇女医院Mahmood Lab开发的病理AI视觉主干网络,基于自监督学习在组织病理学图像上预训练,支持多任务评估。
osunlp
UGround是一个强大的GUI视觉定位模型,采用简单的方法进行训练,由OSUNLP和Orby AI合作完成。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
Peekaboo MCP是一个macOS工具,能够快速截取屏幕截图并通过AI分析内容,为AI助手提供视觉能力。
Android-MCP是一个轻量级开源项目,作为AI代理与Android设备之间的桥梁,通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试,无需依赖传统计算机视觉或预设脚本。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
Korx Share MCP Server是一个多功能MCP协议服务器,通过与korx.org API集成,为AI生成的视觉内容(如图表、仪表盘和HTML页面)创建安全可分享的URL,同时保持内容交互性并进行风险过滤。
YOLO MCP服务是一个强大的计算机视觉服务,通过模型上下文协议(MCP)与Claude AI集成,提供物体检测、分割、分类和实时摄像头分析功能。
这是一个连接Tuba.ai平台的MCP服务器,允许通过编程方式控制和交互AI视觉工作流,提供执行、监控、配置和文件上传等功能。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
Screeny MCP Server是一个专为macOS设计的隐私优先截图服务,允许AI代理安全捕获预先批准的应用程序窗口截图,为开发和调试任务提供视觉上下文。
一个基于Google Gemini和Vertex AI的AI视觉分析MCP服务器,支持图像和视频的多模态分析,提供对象检测、图像比较等功能,可集成到多种MCP客户端中。
基于Open-AutoGLM构建的安卓设备自动化MCP服务,通过ADB连接手机并调用视觉模型,可接入小智AI实现智能控制。
这是一个基于模型上下文协议(MCP)的服务器,允许AI助手通过远程控制API来控制Unreal Engine游戏引擎,实现游戏开发自动化,支持资产管理、角色控制、编辑器操作、关卡管理、动画物理、视觉效果、Sequencer等多种功能。
基于MCP协议的AI驱动浏览器自动化服务器,支持多LLM提供商和视觉交互
OmniMCP是一个通过Model Context Protocol (MCP)和OmniParser为AI模型提供丰富UI上下文和交互能力的工具,专注于通过视觉分析、结构化规划和精确交互执行实现用户界面的深度理解。
PageLens是一个MCP服务器,为AI编程助手提供前端应用的可视化反馈,通过无头浏览器自动截图、点击、检查控制台错误和视觉差异,消除开发中的人工循环。
OpticMCP是一个为AI助手提供摄像头和视觉工具的MCP服务器,支持USB摄像头、IP网络摄像头、屏幕捕捉、图像分析、二维码解码等多种功能,实现通用摄像头接口。
Unsplash智能MCP服务器是为AI代理设计的专业图库集成方案,提供智能搜索、自动归因和项目感知的图片管理功能,简化开发者的视觉内容获取流程。
BrowserControl是一个为AI代理提供真实浏览器自动化能力的MCP服务器,采用视觉优先的方法,通过编号元素实现点击、输入等交互,无需CSS选择器或XPath。
MCP Hub是一个用于创建和管理模型上下文协议(MCP)服务器与客户端的框架,集成了UV工具以简化包管理和配置。项目包含AI相关的计算机视觉脚本和数据集处理工具,支持快速部署和开发。
专为AI视觉工作流优化的网页截图工具,自动将完整网页分割为1072x1072像素的图块,确保最佳处理效果,支持MCP集成和屏幕录制功能