最高のCogAgent AIツールモデル_厳選CogAgent情報

AIニュース

智譜GLM-PCオープン体験　PCを自律操作するマルチモーダルエージェントのアップグレード

北京智譜華章科技有限公司は先日、同社の智譜GLM-PCエージェントがアップグレードされ、一般公開されたことを発表しました。世界初のコンピューターを自律操作できるマルチモーダルエージェントであるGLM-PCは、智譜のマルチモーダル大規模モデルCogAgentを基盤としています。ユーザーは簡単なEnter操作で、この革新的なコンピューターインテリジェントアシスタントを体験できます。2024年11月29日のGLM-PC v1.0リリース以来、クローズドβテストが行われてきました。このバージョンでは、

10.6k 17 時間前

智譜GLM-PCオープン体験　PCを自律操作するマルチモーダルエージェントのアップグレード

CogAgentベース！智譜GLM-PCコンピューターインテリジェンス大規模モデル体験版公開

2025年1月23日、一般公開された世界初の、Enterキーを押すだけで利用可能なコンピューターインテリジェンスGLM-PCが再びアップデートされ、大きな注目を集めています。GLM-PCは智譜のマルチモーダル大規模モデルCogAgentをベースとし、人間のようにコンピューターを「観察」し「操作」することで、ユーザーが様々なコンピュータータスクを効率的に完了する支援を行います。

10.2k 3 日前

CogAgentベース！智譜GLM-PCコンピューターインテリジェンス大規模モデル体験版公開

智譜AIオープンソースAgentタスクモデルCogAgent-9B：スクリーンショットによる操作予測

智譜AIのGLM-PC基盤モデルCogAgent-9Bがオープンソースとして公開されました。これは大規模モデルAgentエコシステムの発展を促進することを目的としています。CogAgent-9BはGLM-4V-9Bを基に訓練された専用Agentタスクモデルであり、スクリーンショットのみを入力として、ユーザーが指定した任意のタスクと過去の操作を組み合わせ、次のGUI操作を予測できます。このモデルの汎用性により、パーソナルコンピュータ、スマートフォン、カーナビゲーションデバイスなど、GUIインタラクションをベースとする様々なシーンで広く活用できます。

10.7k 6 日前

智譜AIオープンソースAgentタスクモデルCogAgent-9B：スクリーンショットによる操作予測

清華大学が新たな視覚言語モデルCogAgentを開発、GUIの理解とナビゲーションを深化

清華大学知普AIチームは、グラフィカルユーザーインターフェース（GUI）の理解とナビゲーションに特化した新しい視覚言語モデルCogAgentを発表しました。CogAgentは、複雑なGUI要素とテキストを処理するデュアルエンコーダーシステムを採用しており、1120x1120ピクセルの高解像度入力の処理において優れた性能を発揮します。このモデルは、PCおよびAndroidプラットフォームのGUIナビゲーションタスクにおいて、既存のLLM手法を上回り、テキストとビジュアルの質疑応答ベンチマークにおいても優れた性能を示しています。潜在的な用途としては、GUI操作の自動化、G…

10.2k 5 日前