O CogAgent é um agente GUI baseado em um modelo de linguagem visual (VLM) que permite interação bilíngue (chinês e inglês) através de capturas de tela e linguagem natural. O CogAgent apresenta avanços significativos na percepção de GUI, na precisão de previsão de inferência, na integridade do espaço de operação e na generalização de tarefas. O modelo já está sendo aplicado no produto GLM-PC da ZhipuAI, com o objetivo de auxiliar pesquisadores e desenvolvedores a impulsionar a pesquisa e aplicação de agentes GUI baseados em modelos de linguagem visual.