CogAgent ist ein GUI-Agent, der auf einem visuellen Sprachmodell (VLM) basiert und über Screenshots und natürliche Sprache eine bidirektionale (chinesisch und englisch) Interaktion ermöglicht. CogAgent hat signifikante Fortschritte in Bezug auf GUI-Wahrnehmung, Genauigkeit der Inferenzvorhersage, Vollständigkeit des Aktionsraums und Aufgabenverallgemeinerung erzielt. Das Modell wurde bereits im GLM-PC-Produkt von ZhipuAI eingesetzt und soll Forschern und Entwicklern helfen, die Forschung und Anwendung von GUI-Agenten auf Basis visueller Sprachmodelle voranzutreiben.