智譜AI旗下的GLM-PC基座模型CogAgent-9B現已開源,以促進大模型Agent生態的發展。CogAgent-9B是基於GLM-4V-9B訓練而成的專用Agent任務模型,能夠僅通過屏幕截圖作爲輸入,根據用戶指定的任意任務結合歷史操作,預測下一步的GUI操作。這一模型的普適性使其可廣泛應用於個人電腦、手機、車機設備等多種基於GUI交互的場景。
CogAgent-9B-20241220是基於視覺語言模型的GUI代理模型。
zai-org
CogAgent是基於GLM-4V-9B優化的視覺語言模型GUI智能體,在GUI感知、推理準確性、動作空間完整性和任務泛化性方面有顯著提升,支持中英雙語交互,已應用於GLM-PC產品。
THUDM
基於GLM-4V-9B開發的雙語視覺語言模型,專注於GUI界面感知與操作任務