Best 视觉操作 AI Tools & Models - Premium 视觉操作 News

AI News

AI2发布全开源网络代理 MolmoWeb:仅凭“视觉”即可掌控网页

艾伦人工智能研究所发布全开源网络代理MolmoWeb，采用“视觉驱动”技术，仅通过分析屏幕截图进行网页导航决策，模拟人类浏览行为，实现点击、滚动等操作，标志着网络导航技术的重大突破。

13.3k 8 hours ago

AI 助手进化终局：Gemini 任务自动化上线，手机开始“替你办事”

谷歌发布基于Gemini的“任务自动化”功能，进入Beta测试阶段。该功能使AI助手从信息查询升级为跨应用执行任务的“数字代办”，可模拟人类操作完成订餐、打车等复杂流程，通过虚拟窗口实现视觉化操作。

19.2k 2 hours ago

马斯克宣布xAI与特斯拉联合启动“Macrohard”或“Digital Optimus”项目

埃隆·马斯克宣布，xAI与特斯拉合作推出AI项目“Macrohard”或“Digital Optimus”。该项目是一个能实时监控用户屏幕及键盘鼠标操作（最近5秒内容）的数字机器人，采用双脑架构：xAI的Grok模型负责决策，特斯拉的FSD系统处理视觉信息，旨在实现类人快速反应。

12.3k 9 hours ago

Rokid 携手顶尖 AI 公司，推出未来感十足的智能眼镜！

Rokid正与顶尖大模型公司合作开发新一代AI智能眼镜，以生成式AI和AI智能体为核心，打造革命性操作系统和界面。该眼镜采用端侧多模态模型，支持语音、视觉和触控等多种交互方式，旨在提供全新用户体验。

11k 1 days ago

AI Products

Gazel

Gazel AI通过AI分析您的网站目标受众、可信度、视觉效果和消息传达，为您提供得分和清晰的可操作修复建议，以提高转化率。

数据分析

8.7k

Microsoft Muse

Muse 是微软推出的首个用于游戏创意构思的生成式 AI 模型，能够生成游戏视觉效果和操作动作。

游戏生成

12k

OpenVLA

开源视觉-语言-动作模型，推动机器人操作技术发展。

AI模型

15.2k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

wan2.5-t2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-t2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

MCP

Android Mcp

Android-MCP是一个轻量级开源项目，作为AI代理与Android设备之间的桥梁，通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试，无需依赖传统计算机视觉或预设脚本。

python

15.7k

2.5points

Unreal_mcp

这是一个基于模型上下文协议（MCP）的服务器，允许AI助手通过远程控制API来控制Unreal Engine游戏引擎，实现游戏开发自动化，支持资产管理、角色控制、编辑器操作、关卡管理、动画物理、视觉效果、Sequencer等多种功能。

typescript

9.2k

2.5points

Mcp Android Adb Server

一个通过adb操作安卓设备的MCP服务，支持应用管理、屏幕控制、输入手势和设备信息获取等功能，并可集成视觉模型进行屏幕内容分析。

18.5k

2.5points

Screenmonitormcp

ScreenMonitorMCP是一个革命性的AI视觉服务器项目，为Claude等AI助手提供实时屏幕监控、视觉分析和智能交互能力，使AI能够'看见'并操作用户屏幕。

python

8.9k

2.5points

Mirroir Mcp

mirroir-mcp是一个MCP服务器，允许AI代理通过macOS的iPhone镜像功能，实时查看手机屏幕、点击元素并执行操作，为AI提供视觉和交互能力。

swift

3.9k

2.5points

Playwright Mcp

Playwright MCP是一个基于Playwright的浏览器自动化服务器，通过结构化可访问性快照与网页交互，无需依赖视觉模型或截图，提供轻量级、高效的网页操作能力。

typescript

10.2k

2.0points

Windows Driver Input Mcp

一个独立的MCP服务器，通过IbInputSimulator提供驱动程序级别的键盘鼠标输入控制工具，支持文本输入、快捷键、窗口管理等操作，无需UIA或视觉模块。

cpp

9.7k

2.0points

Mcp Browser Use

基于MCP协议的AI驱动浏览器自动化服务器，支持多模型交互与视觉分析，提供网页操作与会话保持功能

python

8.7k

2.0points

Playwright Mcp

Playwright MCP是一个基于Playwright的浏览器自动化服务器，通过结构化可访问性快照与网页交互，无需截图或视觉模型，为LLM提供轻量高效的网页操作能力。

typescript

9.8k

2.0points

Fiftyone Mcp Server

这是一个FiftyOne MCP服务器项目，允许用户通过AI助手（如ChatGPT和Claude）使用自然语言来探索和管理计算机视觉数据集。它提供了数据集管理、操作执行、插件安装和会话控制等功能，将FiftyOne的80多个内置操作符和插件生态系统暴露给AI工具。

python

6.1k

2.0points

Android Puppeteer Mcp

Android Puppeteer 是一个基于 MCP 协议的 Android 设备自动化服务器，通过视觉元素检测和标注，使 AI 代理能够与 Android 设备进行交互，支持点击、输入、滑动、录屏等多种自动化操作。

python

6.1k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

AI2发布全开源网络代理 MolmoWeb:仅凭“视觉”即可掌控网页

​AI 助手进化终局：Gemini 任务自动化上线，手机开始“替你办事”

马斯克宣布xAI与特斯拉联合启动“Macrohard”或“Digital Optimus”项目

Rokid 携手顶尖 AI 公司，推出未来感十足的智能眼镜！

AI Products

Gazel

Microsoft Muse

OpenVLA

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Doubao-Seed-Translation

wan2.5-t2v-preview

wan2.5-t2i-preview

wan2.5-i2v-preview

OpenCUA 72B

MolmoAct 7B D LIBERO Spatial 0812

MolmoAct 7B D LIBERO Object 0812

MolmoAct 7B D LIBERO Goal 0812

MolmoAct 7B D LIBERO Long 0812

Df_grasp_duplo_cube

Qwen2.5 VL 3B UI R1 E

Flower_libero_10

Flower_calvin_d

Flower_calvin_abc

Flower_calvin_abcd

Spatialvla 4b 224 Pt

Cogagent 9b 20241220

CogACT Small

CogACT Large

CogACT Base

Rdt 1b

Cvt 21

Cvt 13 384

Van Base

MCP

Android Mcp

Unreal_mcp

Mcp Android Adb Server

Screenmonitormcp

Mirroir Mcp

Playwright Mcp

Windows Driver Input Mcp

Mcp Browser Use

Playwright Mcp

Fiftyone Mcp Server

Android Puppeteer Mcp

AI 助手进化终局：Gemini 任务自动化上线，手机开始“替你办事”