海外租车SaaS平台PocketOS近日因AI编程代理Cursor失控遭遇技术灾难。该AI在预发布环境执行常规运维任务时,因权限匹配障碍未停止操作,擅自调用云服务,在9秒内清空公司核心生产数据。创始人Jer Crane公开披露此事,引发行业震动。事件凸显AI自主决策风险及权限管控漏洞。
谷歌推出基于Gemini 3.1Pro架构的Deep Research与Deep Research Max两款AI研究代理,现已开放付费预览。它们旨在自动化复杂研究流程,推动AI从简单搜索向具备深度推理的“长时计算”演进。标准版注重高效低延迟,适合实时对话;Max版则优先研究深度与准确性,适用于复杂任务。
印度初创公司Emergent推出AI代理Wingman,进军AI代理软件市场。该产品主打“消息传递优先”,集成于WhatsApp等主流通讯平台,用户可通过自然语言指令跨工具执行邮件管理、日程对接等任务。公司此前凭借“氛围编码”平台已积累超800万开发者用户。
Anthropic正为Claude开发常驻代理Conway,打造独立运行、始终在线的智能环境。它将拥有独立UI,超越传统聊天界面,作为代理工作空间运行。Conway可直接操作浏览器、连接外部工具,并集成代码功能,实现深度任务处理与代码执行。
Carly是AI代理平台,超120种集成,通过邮件处理多任务,无需应用程序。
Lemon是首个将语音指令转化为完成任务的AI代理,免切换标签操作。
AI代理通过MCP接口雇用真人完成现实世界任务的人力外包平台,已有63万+可租用真人
基于OpenClaw框架的云AI代理,一键部署、自动任务、跨平台集成
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$6
$24
256
Moonshot
Xai
$1.4
$10.5
Deepseek
$12
128
$1.6
$1.75
$14
400
$0.35
$2
-
64
$0.63
$3.15
131
$15
Bytedance
$0.8
$8
Trilogix1
Fara-7B是微软专门为计算机使用场景设计的高效小型语言模型,参数仅70亿,在网页操作等高级用户任务中表现出色,能与更大型的代理系统竞争。
xlangai
OpenCUA是一个端到端的计算机使用基础模型系列,基于Qwen2.5-VL指令模型构建,能够在计算机环境中产生可执行的操作。它具备强大的视觉定位和多步骤任务规划能力,在OSWorld等计算机使用代理基准测试中表现出色。
unsloth
GLM-4.6是智谱AI开发的新一代大语言模型,相比GLM-4.5在上下文处理、编码能力和推理性能方面有显著提升。该模型支持200K上下文长度,在多个公开基准测试中表现出色,特别在代码生成、推理和代理任务方面具有竞争优势。
Salesforce
GTA1是基于强化学习(GRPO)训练的最先进GUI接地模型,专门用于图形用户界面自动化任务。与依赖冗长思维链推理的方法不同,GRPO直接激励可操作和有根据的响应,在多个挑战性数据集上展示了卓越的接地性能和代理性能。
owao
这是基于 driaforall/mem-agent 模型转换的 GGUF 量化版本,采用 Q4_K_M 量化级别。该模型专注于记忆代理功能,能够处理和回忆大量上下文信息,适用于需要长期记忆能力的对话和任务处理场景。
driaforall
这是一个具有8位精度的MLX版本内存代理模型,基于Qwen3-4B-Thinking-2507训练,专门用于处理内存系统中的信息检索、更新和澄清任务。
QuantTrio
DeepSeek-V3.1是基于DeepSeek-V3.1-Base进行后训练的大型语言模型,具有128K上下文长度,支持混合思维模式、智能工具调用和代码代理功能。该模型在多项基准测试中表现出色,特别在数学推理、代码生成和搜索代理任务上有显著提升。
nvidia
NVIDIA-Nemotron-Nano-9B-v2是NVIDIA从头训练的大语言模型,专为推理和非推理任务设计。采用Mamba2-Transformer混合架构,支持多语言处理,具备可控推理能力,允许用户指定思考预算,在商业应用和AI代理系统中表现出色。
gabriellarson
gpt-oss-20b是OpenAI推出的开放权重模型,具备强大的推理能力,适用于代理任务和开发者的多样使用场景。该模型具有低延迟特性,适用于本地或特定场景部署。
cpatonn
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct衍生的大语言模型,是v1版本的显著升级版。该模型在推理、人类对话偏好和代理任务(如RAG和工具调用)方面表现出色,支持128K令牌的上下文长度,在准确性和效率间实现了良好平衡。
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理、聊天偏好和代理任务能力。采用神经架构搜索技术,在保持高准确性的同时显著提升效率,支持128K令牌上下文长度和多语言处理。
Llama-3.3-Nemotron-Super-49B-v1.5是NVIDIA开发的高效大语言模型,基于Meta Llama-3.3-70B-Instruct衍生而来。该模型在推理、聊天交互和代理任务方面表现出色,通过神经架构搜索技术显著降低了内存占用,支持128K令牌的上下文长度,在数学、代码、科学和工具调用等多方面能力得到增强。
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理和非推理能力。支持128K token上下文长度,在准确性和效率之间取得了良好平衡,适用于推理、聊天和代理任务。
brittlewis12
Devstral Small 1.1 GGUF是专为软件工程任务打造的大语言模型,结合Mistral AI和All Hands AI技术优势,在代码处理和软件工程代理方面表现出色。
Mungert
Arch-Agent-3B GGUF是一款专为高级函数调用和基于代理的应用程序设计的大语言模型,擅长处理复杂多步任务,支持智能工具选择和自适应规划。
Arch-Agent-32B GGUF模型是专为高级函数调用和基于代理的应用程序设计的一系列模型,在处理复杂的多步骤任务方面表现出色。
Arch-Agent-1.5B GGUF 模型是专为高级函数调用和基于代理的应用程序设计的最先进大语言模型集合,能出色处理复杂的多步骤任务,在复杂场景中表现卓越。
lmstudio-community
Skywork SWE 32B是一款专为软件工程(SWE)任务设计的代码代理模型,能有效提升相关任务的处理效率和准确性。
Skywork
Skywork-SWE-32B是由Skywork AI开发的代码代理模型,专为软件工程任务设计,在多个关键指标上表现出色。
microsoft
GUI-Actor-7B是基于Qwen2-VL-7B-Instruct开发的视觉语言模型,专注于图形用户界面(GUI)代理任务,提供无坐标的视觉接地解决方案。
Overseer是一个通过MCP为AI代理提供任务编排的系统,采用SQLite存储和原生VCS支持(jj-lib + gix),支持任务层次管理、学习记录传递和可视化界面。
基于MCP协议的智能任务管理系统,提供AI代理的高效编程工作流框架,具备任务规划、分解、执行和记忆功能。
ATLAS是一个基于TypeScript和Neo4j构建的智能任务与知识管理系统,专为LLM代理设计,提供项目、任务和知识的三层管理架构。
一个基于MCP协议的服务器,用于在代理任务完成时发送桌面通知和播放提示音。
Ultimate MCP Server是一个基于模型上下文协议(MCP)的AI代理操作系统,提供数十种强大工具能力,包括智能任务委派、文档处理、浏览器自动化、Excel操作等,通过标准化MCP工具实现AI代理的认知增强和复杂任务编排。
Android-MCP是一个轻量级开源项目,作为AI代理与Android设备之间的桥梁,通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试,无需依赖传统计算机视觉或预设脚本。
Think MCP是一个实现MCP服务器的项目,提供'think'工具以支持AI代理在复杂任务中进行结构化推理,灵感来自Anthropic的研究。该工具通过记录思考过程帮助AI处理信息、回溯或遵守策略,适用于工具输出分析、策略密集环境和顺序决策场景。
gbox是一个开源的自托管沙箱项目,为MCP集成和其他AI代理用例提供安全环境。它包含终端、浏览器、文件编辑器等工具,支持本地任务执行和文件处理,并提供了Python和Typescript SDK。
Speelka Agent是一个基于模型上下文协议(MCP)的通用LLM代理,能够调用其他MCP服务器的工具,实现复杂任务分解、多模型协作和工具编排。
一个连接Obsidian知识库的MCP服务器,通过REST API插件使AI代理能执行复杂知识发现和分析任务,支持高级搜索、正则匹配和全文检索等功能。
GooseTeam是一个AI代理协作平台,通过MCP协议实现代理间的任务分配与消息管理,支持自然语言和流程图两种协议表达方式,并提供扩展工具集。
Superdesign MCP服务器是一个设计协调器,将开源的Superdesign AI设计代理集成到Claude Code中,无需API密钥即可使用其高级设计功能。它通过MCP服务器提供结构化规范,使Claude Code的LLM能够执行设计任务,支持UI设计、组件、图标等多种设计类型,并包含迭代和设计系统提取功能。
Sequential Thinking MCP是一个支持AI代理进行高级元认知和动态反思问题解决的MCP服务器,通过虚拟记录思维和计划来指导复杂任务的分步执行。
Webvizio MCP服务器是一个基于TypeScript的模型上下文协议服务器,提供对Webvizio API的安全结构化访问,可将网站反馈和错误报告自动转换为可执行的开发任务,供AI编码代理处理。
基于Model Context Protocol(MCP)的智能任务管理系统,为AI代理提供高效编程工作流框架,具备任务规划、分解、依赖管理、验证和记忆等功能。
一个基于CrewAI框架的MCP服务器,提供AI代理和任务管理功能,支持创建代理、任务和工作流,并自动运行。
一个基于CrewAI框架的AI代理与任务管理服务器,提供代理创建、任务分配和工作流执行功能。
Yokan Board MCP是一个基于Model Context Protocol的服务器,为AI代理提供与Yokan看板API交互的工具接口,支持看板、列和任务的全面管理。
Pinchwork是一个AI代理任务市场,代理之间可以互相发布和承接任务,通过积分系统进行支付,支持实时通信、信用托管和多种框架集成。
一个与AI代码编辑器集成的MCP服务器,通过Gemini 2.5的百万token上下文窗口和任务管理功能,优化Cursor的代理能力。