清华大学研发新视觉语言模型CogAgent,深化GUI理解与导航
["清华大学智普AI团队发布名为CogAgent的新视觉语言模型,专注于理解和导航图形用户界面(GUI)。","CogAgent采用双编码器系统,处理复杂GUI元素和文本,在处理1120x1120像素的高分辨率输入方面表现出色。","模型在PC和Android平台的GUI导航任务中优于现有LLM方法,同时在文本和视觉问答基准上也表现卓越。","潜在应用包括自动化GUI操作、提供GUI帮助和指导,以及开发新的GUI设计和交互方式。","虽然CogAgent仍处于早期开发阶段,但其创新性的高分辨率图像处理方法使其在自动化GUI操作和解释任务中具有潜力。"]