国内首个全模态实时交互视觉语言模型VisualGPT在青岛发布,用户可上传图片视频并直接圈选提问,模型秒级返回答案、代码或3D场景,同步开放智能体训练平台及算力资源,推动AI交互进入视觉界面即时互动新阶段。
Google AI工具NotebookLM新增功能:用户可通过任意文本提示生成视频摘要,突破原有风格限制,支持包括《辛普森一家》等各类视觉风格创作,并能准确还原角色设定与叙事特点。
百度世界大会上,小度科技发布升级版多模态AI助手“超能小度”,整合语音、视觉和空间信息,提升感知能力。该助手支持听、说及环境识别,数千万小度设备可免费升级,推动人机交互进步,让用户体验更智能生活。
ChatTutor AI教师系统突破纯文字局限,通过实时画板实现可视化教学。提问时,AI边讲解边动态绘制图形、推演过程,如二次函数平移可直观展示曲线变化。知识转化为视觉逻辑,提升教学体验。
BeatViz AI可借助AI将音乐转化为精彩视觉体验,快速制作专业音乐视频。
专业AI图像与视频生成平台,用多种AI工具打造惊艳视觉效果。
一款免费在线 AI 图像编辑器,快速生成独特视觉效果。
Nano Banana 2是AI图像生成与编辑平台,用先进神经网络秒变文字为视觉作品。
DevQuasar
这是一个基于Moonshot AI技术的量化版本模型,专注于视觉语言理解与生成任务,致力于降低知识获取门槛,让知识为每个人所用。
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
deepseek-ai
DeepSeek-OCR是DeepSeek AI开发的一款先进的光学字符识别模型,专注于探索视觉文本压缩的边界,能够高效地从图像中提取和转换文本内容。
cpatonn
GLM-4.5V-AWQ-4bit是基于智谱AI下一代旗舰文本基础模型构建的量化版本多模态模型,通过AWQ-4bit量化技术优化,在保持优异性能的同时显著降低计算资源需求。该模型在42个公开视觉语言基准测试中达到同规模模型的SOTA性能,具备强大的视觉推理能力。
facebook
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调即可在广泛的视觉任务中超越专门的先进模型。该模型采用自监督学习方式,生成高质量的密集特征,在图像分类、分割、深度估计等多种任务中表现出色。
DINOv3是Meta AI开发的多功能视觉基础模型,无需微调就能在广泛视觉任务中超越专业模型。该模型能生成高质量密集特征,在各种视觉任务中表现出色,显著超越了以往的自监督和弱监督基础模型。
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调就能在多种视觉任务中超越专门的先进模型。该模型采用Vision Transformer架构,在16.89亿张网络图像上预训练,能生成高质量的密集特征,在图像分类、分割、检索等任务中表现出色。
zai-org
GLM-4.1V-9B-Base是智谱AI开发的开源视觉语言基础模型,拥有90亿参数,专注于多模态推理能力,支持中英双语,处理高达4K分辨率的图像和64K上下文长度。
deepseek-community
DeepSeek-VL是由DeepSeek AI团队开发的开源视觉语言模型,能够同时处理文本和图像信息,生成上下文相关的回复。该模型采用混合视觉编码器,支持高分辨率图像处理,在真实世界的视觉语言理解应用中表现出色。
fahadh4ilyas
Llama 4系列是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像交互,在多种语言和视觉任务中表现卓越。
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
aiwithoutborders-xyz
这是一个在法医应用中检测AI生成图像的视觉Transformer模型,训练于迄今为止最大的数据集。
buildborderless
这是一个基于视觉Transformer架构的图像分类模型,专门用于检测AI生成的图像,为法医应用提供支持。模型在包含270万张图像的大规模数据集上训练,涵盖15+个生成器和4600+个模型。
cortexso
Deepscaler是一款基于DeepScaleR-1.5B-Preview开发的高级AI模型,专注于提升机器学习任务的效率与可扩展性。该模型提供高质量的预测分析和数据处理能力,适用于自然语言处理、计算机视觉等复杂场景,在金融、医疗和娱乐等行业有广泛应用。
MahmoodLab
UNI 2是由哈佛大学/布莱根妇女医院Mahmood Lab开发的病理AI视觉主干网络,基于自监督学习在组织病理学图像上预训练,支持多任务评估。
osunlp
UGround是一个强大的GUI视觉定位模型,采用简单的方法进行训练,由OSUNLP和Orby AI合作完成。
UGround是一款采用简单配方训练的强大GUI视觉定位模型,由OSU NLP Group与Orby AI合作完成。
timm
AIM-v2是一个高效的图像编码器,基于timm库实现,适用于多种计算机视觉任务。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
Peekaboo MCP是一个macOS工具,能够快速截取屏幕截图并通过AI分析内容,为AI助手提供视觉能力。
Android-MCP是一个轻量级开源项目,作为AI代理与Android设备之间的桥梁,通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试,无需依赖传统计算机视觉或预设脚本。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
Korx Share MCP Server是一个多功能MCP协议服务器,通过与korx.org API集成,为AI生成的视觉内容(如图表、仪表盘和HTML页面)创建安全可分享的URL,同时保持内容交互性并进行风险过滤。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
YOLO MCP服务是一个强大的计算机视觉服务,通过模型上下文协议(MCP)与Claude AI集成,提供物体检测、分割、分类和实时摄像头分析功能。
Screeny MCP Server是一个专为macOS设计的隐私优先截图服务,允许AI代理安全捕获预先批准的应用程序窗口截图,为开发和调试任务提供视觉上下文。
VGGT-MPS是基于苹果芯片优化的3D视觉重建工具,使用Metal Performance Shaders加速,能够从单张或多张图像生成深度图、相机姿态和3D点云,支持稀疏注意力实现城市级重建。
基于MCP协议的AI驱动浏览器自动化服务器,支持多LLM提供商和视觉交互
OmniMCP是一个通过Model Context Protocol (MCP)和OmniParser为AI模型提供丰富UI上下文和交互能力的工具,专注于通过视觉分析、结构化规划和精确交互执行实现用户界面的深度理解。
Unsplash智能MCP服务器是为AI代理设计的专业图库集成方案,提供智能搜索、自动归因和项目感知的图片管理功能,简化开发者的视觉内容获取流程。
专为AI视觉工作流优化的网页截图工具,自动将完整网页分割为1072x1072像素的图块,确保最佳处理效果,支持MCP集成和屏幕录制功能
MCP Hub是一个用于创建和管理模型上下文协议(MCP)服务器与客户端的框架,集成了UV工具以简化包管理和配置。项目包含AI相关的计算机视觉脚本和数据集处理工具,支持快速部署和开发。
MCP OpenVision是一个基于OpenRouter视觉模型的图像分析服务器,为AI助手提供图像分析能力。
ScreenMonitorMCP是一个革命性的AI视觉服务器项目,为Claude等AI助手提供实时屏幕监控、视觉分析和智能交互能力,使AI能够'看见'并操作用户屏幕。
一个集成GLM-4.5V视觉能力的MCP服务器,支持本地图片和URL分析,通过Claude Code提供图像分析功能
OmniMCP是一个通过Model Context Protocol (MCP)和OmniParser为AI模型提供丰富UI上下文和交互能力的项目,支持视觉感知、LLM规划、动作执行等功能,实现用户界面的深度理解和精准交互。
OpenRouter图像MCP服务器为AI代理提供强大的图像分析能力,支持多种视觉模型,可分析照片、网页截图、移动应用界面等视觉内容
一个提供AI视觉分析能力的MCP服务器,支持网页截图、视觉分析、文件操作和报告生成等功能。