最好的CogAgent AI工具模型_精选CogAgent资讯

AI资讯

智谱GLM-PC开放体验自主操作电脑的多模态Agent升级

北京智谱华章科技有限公司近日宣布其旗下的智谱 GLM-PC 智能体已进行升级，并正式向公众开放体验。作为全球首个可以自主操作计算机的多模态智能体，GLM-PC 的技术基础是智谱的多模态大模型 CogAgent。用户只需简单的回车操作，即可体验这一革新性的电脑智能助手。自2024年11月29日 GLM-PC v1.0发布以来，它就一直处于内测阶段。这一版本带来了 “深度思考” 模式，新增了逻辑推理和代码生成功能，同时也对 Windows 系统进行了支持。GLM-PC 的能力涵盖了代码生成、逻辑执行、图形用户界面（

24.9k 2 天前

基于CogAgent！智谱GLM-PC电脑智能体大模型开放体验

2025年1月23日，全球首个面向公众的、回车即用的电脑智能体GLM-PC再次升级，引发广泛关注。GLM-PC基于智谱多模态大模型CogAgent，能像人类一样“观察”和“操作”计算机，协助用户高效完成各类电脑任务。

20.8k 1 天前

智谱AI开源Agent任务模型CogAgent-9B：通过屏幕截图预判操作

智谱AI旗下的GLM-PC基座模型CogAgent-9B现已开源，以促进大模型Agent生态的发展。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型，能够仅通过屏幕截图作为输入，根据用户指定的任意任务结合历史操作，预测下一步的GUI操作。这一模型的普适性使其可广泛应用于个人电脑、手机、车机设备等多种基于GUI交互的场景。

18.7k 5 天前

清华大学研发新视觉语言模型CogAgent，深化GUI理解与导航

["清华大学智普AI团队发布名为CogAgent的新视觉语言模型，专注于理解和导航图形用户界面(GUI)。","CogAgent采用双编码器系统，处理复杂GUI元素和文本，在处理1120x1120像素的高分辨率输入方面表现出色。","模型在PC和Android平台的GUI导航任务中优于现有LLM方法，同时在文本和视觉问答基准上也表现卓越。","潜在应用包括自动化GUI操作、提供GUI帮助和指导，以及开发新的GUI设计和交互方式。","虽然CogAgent仍处于早期开发阶段，但其创新性的高分辨率图像处理方法使其在自动化GUI操作和解释任务中具有潜力。"]

12.5k 3 天前