清華大学が新たな視覚言語モデルCogAgentを開発、GUIの理解とナビゲーションを深化
清華大学知普AIチームは、グラフィカルユーザーインターフェース(GUI)の理解とナビゲーションに特化した新しい視覚言語モデルCogAgentを発表しました。CogAgentは、複雑なGUI要素とテキストを処理するデュアルエンコーダーシステムを採用しており、1120x1120ピクセルの高解像度入力の処理において優れた性能を発揮します。このモデルは、PCおよびAndroidプラットフォームのGUIナビゲーションタスクにおいて、既存のLLM手法を上回り、テキストとビジュアルの質疑応答ベンチマークにおいても優れた性能を示しています。潜在的な用途としては、GUI操作の自動化、G…