艾伦人工智能研究所发布全开源网络代理MolmoWeb,采用“视觉驱动”技术,仅通过分析屏幕截图进行网页导航决策,模拟人类浏览行为,实现点击、滚动等操作,标志着网络导航技术的重大突破。
谷歌发布基于Gemini的“任务自动化”功能,进入Beta测试阶段。该功能使AI助手从信息查询升级为跨应用执行任务的“数字代办”,可模拟人类操作完成订餐、打车等复杂流程,通过虚拟窗口实现视觉化操作。
埃隆·马斯克宣布,xAI与特斯拉合作推出AI项目“Macrohard”或“Digital Optimus”。该项目是一个能实时监控用户屏幕及键盘鼠标操作(最近5秒内容)的数字机器人,采用双脑架构:xAI的Grok模型负责决策,特斯拉的FSD系统处理视觉信息,旨在实现类人快速反应。
Rokid正与顶尖大模型公司合作开发新一代AI智能眼镜,以生成式AI和AI智能体为核心,打造革命性操作系统和界面。该眼镜采用端侧多模态模型,支持语音、视觉和触控等多种交互方式,旨在提供全新用户体验。
Gazel AI通过AI分析您的网站目标受众、可信度、视觉效果和消息传达,为您提供得分和清晰的可操作修复建议,以提高转化率。
Muse 是微软推出的首个用于游戏创意构思的生成式 AI 模型,能够生成游戏视觉效果和操作动作。
开源视觉-语言-动作模型,推动机器人操作技术发展。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
xlangai
OpenCUA是一个端到端的计算机使用基础模型系列,基于Qwen2.5-VL指令模型构建,能够在计算机环境中产生可执行的操作。它具备强大的视觉定位和多步骤任务规划能力,在OSWorld等计算机使用代理基准测试中表现出色。
allenai
MolmoAct是由艾伦人工智能研究所开发的开源机器人操作动作推理模型,基于Qwen2.5-7B和SigLip2视觉骨干网络构建,专门针对家庭和桌面环境中的单臂Franka机器人操作任务进行优化。
MolmoAct是由艾伦人工智能研究所开发的全开源机器人操作动作推理模型,基于Qwen2.5-7B和SigLip2视觉骨干网络构建,专门用于家庭和桌面环境中的机器人操作任务。
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2构建,在家庭和桌面环境中的93种操作任务上训练,具有领先的视觉-语言-动作处理能力。
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2视觉骨干网络,在家庭和桌面环境中的93种独特操作任务上训练,具有领先的视觉-语言-动作推理性能。
nbirukov
基于扩散策略的视觉运动控制模型,将机器人控制视为生成扩散过程,能够生成平滑的多步动作轨迹,在富接触操作任务中表现出色。
LZXzju
UI-R1-E-3B是基于Qwen2.5-VL-3B-Instruct微调的高效GUI定位模型,专注于视觉问答任务,特别擅长在用户界面截图中定位和识别操作元素。
mbreuss
FlowerVLA是一个针对机器人操作任务预训练的视觉-语言-动作流策略模型,训练数据来自LIBERO 10数据集,仅包含10亿参数。
FlowerVLA是一个针对CALVIN D数据集预训练的视觉-语言-动作流模型,采用高效的流匹配架构,仅约10亿参数即可实现通用机器人操作策略。
FlowerVLA是一个针对机器人操作任务预训练的视觉-语言-动作模型,基于CALVIN ABC数据集训练,采用高效的流匹配架构,仅约10亿参数。
FlowerVLA是一个针对CALVIN ABCD数据集预训练的机器人操作模型,采用创新的视觉-语言-动作流策略,仅包含10亿参数,专为机器人学习设计。
IPEC-COMMUNITY
SpatialVLA是基于110万真实机器人操作片段训练的空间增强视觉语言动作模型,专注于机器人控制任务
THUDM
基于GLM-4V-9B开发的双语视觉语言模型,专注于GUI界面感知与操作任务
CogACT
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
CogACT是一种新型视觉语言动作(VLA)架构,结合视觉语言模型与专用动作模块,用于机器人操作任务。
robotics-diffusion-transformer
基于100万+多机器人操作数据预训练的10亿参数模仿学习扩散Transformer模型,支持多视角视觉语言动作预测
microsoft
CvT-21是基于ImageNet-1k数据集预训练的视觉变换器模型,通过引入卷积操作改进传统视觉变换器。
CvT-13是基于ImageNet-1k数据集预训练的视觉变换器模型,通过引入卷积操作改进了传统视觉变换器的性能。
Visual-Attention-Network
Van模型是一种基于卷积操作的视觉注意力网络,能够同时捕捉局部和远距离的关联,适用于图像分类任务。
Android-MCP是一个轻量级开源项目,作为AI代理与Android设备之间的桥梁,通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试,无需依赖传统计算机视觉或预设脚本。
这是一个基于模型上下文协议(MCP)的服务器,允许AI助手通过远程控制API来控制Unreal Engine游戏引擎,实现游戏开发自动化,支持资产管理、角色控制、编辑器操作、关卡管理、动画物理、视觉效果、Sequencer等多种功能。
一个通过adb操作安卓设备的MCP服务,支持应用管理、屏幕控制、输入手势和设备信息获取等功能,并可集成视觉模型进行屏幕内容分析。
ScreenMonitorMCP是一个革命性的AI视觉服务器项目,为Claude等AI助手提供实时屏幕监控、视觉分析和智能交互能力,使AI能够'看见'并操作用户屏幕。
mirroir-mcp是一个MCP服务器,允许AI代理通过macOS的iPhone镜像功能,实时查看手机屏幕、点击元素并执行操作,为AI提供视觉和交互能力。
Playwright MCP是一个基于Playwright的浏览器自动化服务器,通过结构化可访问性快照与网页交互,无需依赖视觉模型或截图,提供轻量级、高效的网页操作能力。
一个独立的MCP服务器,通过IbInputSimulator提供驱动程序级别的键盘鼠标输入控制工具,支持文本输入、快捷键、窗口管理等操作,无需UIA或视觉模块。
基于MCP协议的AI驱动浏览器自动化服务器,支持多模型交互与视觉分析,提供网页操作与会话保持功能
Playwright MCP是一个基于Playwright的浏览器自动化服务器,通过结构化可访问性快照与网页交互,无需截图或视觉模型,为LLM提供轻量高效的网页操作能力。
这是一个FiftyOne MCP服务器项目,允许用户通过AI助手(如ChatGPT和Claude)使用自然语言来探索和管理计算机视觉数据集。它提供了数据集管理、操作执行、插件安装和会话控制等功能,将FiftyOne的80多个内置操作符和插件生态系统暴露给AI工具。
Android Puppeteer 是一个基于 MCP 协议的 Android 设备自动化服务器,通过视觉元素检测和标注,使 AI 代理能够与 Android 设备进行交互,支持点击、输入、滑动、录屏等多种自动化操作。