清華大學研發新視覺語言模型CogAgent,深化GUI理解與導航
["清華大學智普AI團隊發佈名爲CogAgent的新視覺語言模型,專注於理解和導航圖形用戶界面(GUI)。","CogAgent採用雙編碼器系統,處理複雜GUI元素和文本,在處理1120x1120像素的高分辨率輸入方面表現出色。","模型在PC和Android平臺的GUI導航任務中優於現有LLM方法,同時在文本和視覺問答基準上也表現卓越。","潛在應用包括自動化GUI操作、提供GUI幫助和指導,以及開發新的GUI設計和交互方式。","雖然CogAgent仍處於早期開發階段,但其創新性的高分辨率圖像處理方法使其在自動化GUI操作和解釋任務中具有潛力。"]