微软开源 OmniParser V2:让大语言模型“看懂”并操作 GUI
微软近日推出了其 Windows 操作大模型 OmniParser 的升级版本——OmniParser-v2.0。该模型能够识别桌面和窗口元素,并与之进行交互,标志着 AI Agent 技术在实现完全自动使用电脑的方向上又迈进了一步。 OmniParser-v2.0 的关键能力在于其对桌面环境的感知和交互能力。这意味着,通过与该模型的结合,AI Agent 不仅能理解用户的指令,还能直接在 Windows 操作系统层面上执行操作,例如打开特定窗口、定位并点击按钮、输入文本等。 值得注意的是,OmniParser-v2.0 可以接入如 DeepSeek-R1等其他模型。这种可