智譜AIオープンソースAgentタスクモデルCogAgent-9B:スクリーンショットによる操作予測
智譜AIのGLM-PC基盤モデルCogAgent-9Bがオープンソースとして公開されました。これは大規模モデルAgentエコシステムの発展を促進することを目的としています。CogAgent-9BはGLM-4V-9Bを基に訓練された専用Agentタスクモデルであり、スクリーンショットのみを入力として、ユーザーが指定した任意のタスクと過去の操作を組み合わせ、次のGUI操作を予測できます。このモデルの汎用性により、パーソナルコンピュータ、スマートフォン、カーナビゲーションデバイスなど、GUIインタラクションをベースとする様々なシーンで広く活用できます。