微軟開源 OmniParser V2:讓大語言模型“看懂”並操作 GUI
微軟近日推出了其 Windows 操作大模型 OmniParser 的升級版本——OmniParser-v2.0。該模型能夠識別桌面和窗口元素,並與之進行交互,標誌着 AI Agent 技術在實現完全自動使用電腦的方向上又邁進了一步。 OmniParser-v2.0 的關鍵能力在於其對桌面環境的感知和交互能力。這意味着,通過與該模型的結合,AI Agent 不僅能理解用戶的指令,還能直接在 Windows 操作系統層面上執行操作,例如打開特定窗口、定位並點擊按鈕、輸入文本等。 值得注意的是,OmniParser-v2.0 可以接入如 DeepSeek-R1等其他模型。這種可