NVIDIA发布首个开源量子AI模型“NVIDIA Ising”,旨在解决量子处理器校准和纠错两大难题。该模型包含Ising Calibration和Ising Decoding两部分,其中Ising Calibration作为350亿参数的视觉语言模型,可将校准时间从数天缩短至数小时,显著提升量子计算实用化效率。
谷歌DeepMind最新研究揭示AI视觉模型存在“全局强、局部弱”的短板,并提出TIPSv2方案。该方案通过改进训练方法,使模型能更精准定位图像局部细节,如识别熊猫左后腿位置,解决了视觉-语言模型在精细分割任务上的长期难题。
LPM1.0模型发布,能通过单张参考图实时生成人物说话、聆听及唱歌视频。其核心突破在于多模态处理,可同步整合文本、音频与图像,生成唇形精准同步、表情细腻且情绪过渡自然的动态画面。该模型支持接入ChatGPT等主流语音AI,将传统语音对话升级为具备视觉反馈的实时交互。
字节跳动AI核心部门Seed团队近一年流失近70名技术人才,流向头部大厂及AI初创公司,反映国内大模型人才竞争白热化。该团队成立于2023年,专注LLM、语音、视觉及世界模型等前沿研究,其豆包大模型已支持豆包、扣子等50多个应用场景。
Caimera利用AI生成时尚、电商和广告模型,提升视觉效果促进销售。
NewYouGo是免费AI图像与视频生成平台,用先进模型秒速创建高质量视觉内容。
基于Gemini 2.0的机器人模型,将AI带入物理世界,具备视觉、语言和动作能力。
通过定制AI模型快速生成符合品牌形象的产品视觉图像,无需专业摄影或工作室。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
XiaomiMiMo
米模具身模型(MiMo-Embodied)是一款强大的跨具身视觉语言模型,在自动驾驶和具身AI任务中均展现出了卓越的性能。它是首个将这两个关键领域相结合的开源视觉语言模型,显著提升了在动态物理环境中的理解和推理能力。
DevQuasar
这是一个基于Moonshot AI技术的量化版本模型,专注于视觉语言理解与生成任务,致力于降低知识获取门槛,让知识为每个人所用。
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
deepseek-ai
DeepSeek-OCR是DeepSeek AI开发的一款先进的光学字符识别模型,专注于探索视觉文本压缩的边界,能够高效地从图像中提取和转换文本内容。
cpatonn
GLM-4.5V-AWQ-4bit是基于智谱AI下一代旗舰文本基础模型构建的量化版本多模态模型,通过AWQ-4bit量化技术优化,在保持优异性能的同时显著降低计算资源需求。该模型在42个公开视觉语言基准测试中达到同规模模型的SOTA性能,具备强大的视觉推理能力。
facebook
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调即可在广泛的视觉任务中超越专门的先进模型。该模型采用自监督学习方式,生成高质量的密集特征,在图像分类、分割、深度估计等多种任务中表现出色。
DINOv3是Meta AI开发的多功能视觉基础模型,无需微调就能在广泛视觉任务中超越专业模型。该模型能生成高质量密集特征,在各种视觉任务中表现出色,显著超越了以往的自监督和弱监督基础模型。
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调就能在多种视觉任务中超越专门的先进模型。该模型采用Vision Transformer架构,在16.89亿张网络图像上预训练,能生成高质量的密集特征,在图像分类、分割、检索等任务中表现出色。
zai-org
GLM-4.1V-9B-Base是智谱AI开发的开源视觉语言基础模型,拥有90亿参数,专注于多模态推理能力,支持中英双语,处理高达4K分辨率的图像和64K上下文长度。
deepseek-community
DeepSeek-VL是由DeepSeek AI团队开发的开源视觉语言模型,能够同时处理文本和图像信息,生成上下文相关的回复。该模型采用混合视觉编码器,支持高分辨率图像处理,在真实世界的视觉语言理解应用中表现出色。
RedHatAI
Llama-4-Scout是Meta推出的Llama 4系列模型之一,采用混合专家(MoE)架构,是原生多模态AI模型,支持文本和图像输入,在多语言文本理解和视觉任务方面表现出色。该模型具有17B参数,16个专家,专为商业和研究用途设计。
fahadh4ilyas
Llama 4系列是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像交互,在多种语言和视觉任务中表现卓越。
aiwithoutborders-xyz
这是一个在法医应用中检测AI生成图像的视觉Transformer模型,训练于迄今为止最大的数据集。
buildborderless
这是一个基于视觉Transformer架构的图像分类模型,专门用于检测AI生成的图像,为法医应用提供支持。模型在包含270万张图像的大规模数据集上训练,涵盖15+个生成器和4600+个模型。
cortexso
Deepscaler是一款基于DeepScaleR-1.5B-Preview开发的高级AI模型,专注于提升机器学习任务的效率与可扩展性。该模型提供高质量的预测分析和数据处理能力,适用于自然语言处理、计算机视觉等复杂场景,在金融、医疗和娱乐等行业有广泛应用。
osunlp
UGround是一个强大的GUI视觉定位模型,采用简单的方法进行训练,由OSUNLP和Orby AI合作完成。
UGround是一款采用简单配方训练的强大GUI视觉定位模型,由OSU NLP Group与Orby AI合作完成。
timm
AIM-v2是一个高效的图像编码器模型,兼容timm框架,适用于计算机视觉任务。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
YOLO MCP服务是一个强大的计算机视觉服务,通过模型上下文协议(MCP)与Claude AI集成,提供物体检测、分割、分类和实时摄像头分析功能。
基于Open-AutoGLM构建的安卓设备自动化MCP服务,通过ADB连接手机并调用视觉模型,可接入小智AI实现智能控制。
这是一个基于模型上下文协议(MCP)的服务器,允许AI助手通过远程控制API来控制Unreal Engine游戏引擎,实现游戏开发自动化,支持资产管理、角色控制、编辑器操作、关卡管理、动画物理、视觉效果、Sequencer等多种功能。
OmniMCP是一个通过Model Context Protocol (MCP)和OmniParser为AI模型提供丰富UI上下文和交互能力的工具,专注于通过视觉分析、结构化规划和精确交互执行实现用户界面的深度理解。
MCP Hub是一个用于创建和管理模型上下文协议(MCP)服务器与客户端的框架,集成了UV工具以简化包管理和配置。项目包含AI相关的计算机视觉脚本和数据集处理工具,支持快速部署和开发。
MCP OpenVision是一个基于OpenRouter视觉模型的图像分析服务器,为AI助手提供图像分析能力。
OmniMCP是一个通过Model Context Protocol (MCP)和OmniParser为AI模型提供丰富UI上下文和交互能力的项目,支持视觉感知、LLM规划、动作执行等功能,实现用户界面的深度理解和精准交互。
OpenRouter图像MCP服务器为AI代理提供强大的图像分析能力,支持多种视觉模型,可分析照片、网页截图、移动应用界面等视觉内容
基于MCP协议的AI驱动浏览器自动化服务器,支持多模型交互与视觉分析,提供网页操作与会话保持功能
一个完整的Groq MCP服务器项目,作为智能桥梁连接应用与Groq API,支持多种AI模型(文本、音频、视觉、批处理),具备智能路由、速率限制、缓存优化等高级功能。
MCP-hfspace是一个简化连接Hugging Face Spaces的服务器工具,支持图像生成、语音处理、视觉模型等多种AI功能,与Claude Desktop无缝集成。