谷歌Gemini推出任务自动化功能,AI助手从对话工具升级为执行代理,可接管手机屏幕直接操作,如点外卖等,实现“无人驾驶”体验。
Meta宣布将用自研AI系统逐步取代第三方人工审核,以应对内容监管挑战。公司认为AI技术已能处理重复性审核任务,未来几年内将在Facebook和Instagram全面推行自动化审核,减少对人工审核的依赖。
2026年3月,Google DeepMind升级Gemini API,推出多工具链与“上下文循环”机制。此举简化了开发流程,允许在单个请求中整合Google搜索、地图等内置工具与自定义函数。“上下文循环”实现了跨工具的自动化数据传递,提升了响应效率与任务处理能力。
Picsart推出AI代理市场,用户可“雇佣”AI助手自动化处理设计任务,实现从操作辅助到自主执行的跨越。首批工具覆盖电商优化、多平台适配等场景,如Flair集成Shopify分析市场趋势。
RapidRazor是适用于Adobe Premiere Pro的AI视频编辑工具,可自动化多项编辑任务。
NVIDIA开源企业级AI代理平台,保障安全隐私,支持任务自动化与定制。
首个AI同事,可自动化任务、写代码、连接3000工具,实干而非仅答疑
AI驱动的浏览器,可与网页聊天、自动化任务、轻松管理标签页。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$6
$24
256
Moonshot
Xai
$1.4
$10.5
Bytedance
$0.8
$8
$1.6
128
$8.75
$70
400
$1.75
$14
$0.35
$2
-
64
$0.63
$3.15
131
$15
prithivMLmods
ActIO-UI-7B-RLVR 是由 Uniphore 发布的 70 亿参数视觉语言模型,专门用于计算机界面自动化任务。它基于 Qwen2.5-VL-7B-Instruct,通过监督微调和可验证奖励的强化学习进行优化,在 GUI 导航、元素定位和交互规划等任务上表现出色,在 WARC-Bench 基准测试中达到了开源 7B 模型的领先水平。
microsoft
Fara-7B是微软研究院开发的专为计算机使用场景设计的小型语言模型,仅有70亿参数,在同规模模型中实现卓越性能,能够执行网页自动化、多模态理解等计算机交互任务。
Salesforce
GTA1是基于强化学习(GRPO)训练的最先进GUI接地模型,专门用于图形用户界面自动化任务。与依赖冗长思维链推理的方法不同,GRPO直接激励可操作和有根据的响应,在多个挑战性数据集上展示了卓越的接地性能和代理性能。
zhuyaoyu
CodeV-R1-Qwen-7B是基于CodeV-R1框架,在Qwen/Qwen2.5-Coder-7B-Instruct基础上通过强化学习微调得到的模型,专注于Verilog相关任务,能有效解决电子设计自动化中自动生成硬件描述语言的难题。
fotographerai
ZenCtrl是一个自动化个性化视觉内容创作流程的智能体,能够执行多种设计任务和训练自用模型。
CohereLabs
Command R+ 08-2024 是一个1040亿参数的多语言大语言模型,支持检索增强生成(RAG)和工具使用,适用于复杂任务自动化。
FriendliAI
C4AI Command R+ 是一个开放权重的1040亿参数研究模型,具备高级功能,包括检索增强生成(RAG)和工具使用以自动化复杂任务。
CohereForAI
Command R+是Cohere实验室开发的1040亿参数开放权重研究级模型,支持多语言和复杂任务自动化。
Command R+是Cohere Labs推出的1040亿参数开放权重研究版本模型,具备检索增强生成(RAG)和工具使用能力,支持多语言和多步任务自动化。
taskload
由Henry Leonardi领导的Taskload团队开发的因果提取模型,用于自动化信息抽取任务。
一个集成Linear任务管理和TrackingTime时间追踪的MCP服务,通过自然语言自动化工作流程。
Ultimate MCP Server是一个基于模型上下文协议(MCP)的AI代理操作系统,提供数十种强大工具能力,包括智能任务委派、文档处理、浏览器自动化、Excel操作等,通过标准化MCP工具实现AI代理的认知增强和复杂任务编排。
Android-MCP是一个轻量级开源项目,作为AI代理与Android设备之间的桥梁,通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试,无需依赖传统计算机视觉或预设脚本。
Zapier MCP是一个远程MCP服务器,通过Model Context Protocol将AI助手连接到8000多个应用和40000多个自动化动作,让AI能够直接执行发送邮件、管理任务等实际操作。
MCP Linear是一个实现Linear GraphQL API的Model Context Protocol服务器,使AI助手能够与Linear项目管理工具交互。
Kali MCP Server是一个轻量级API桥接工具,连接MCP客户端与Linux终端,实现AI辅助渗透测试、CTF解题及自动化安全任务。
Rube是基于Composio平台的MCP服务器,可将AI聊天工具连接到500多个商业和生产力应用程序,通过自然语言命令实现自动化任务执行。
GoScry是一个基于Go语言的服务器应用,通过Chrome DevTools协议控制浏览器执行网页操作任务,提供API接口和DOM解析功能。
一个集成了AI驱动任务管理和深度研究功能的Python系统,支持复杂项目分解、任务生成和自动化研究。
该项目是一个集成AI、Ansible和OpenShift的自动化平台,通过MCP服务器实现与Claude Desktop的交互,支持自动化任务执行和管理。
该项目通过MCP协议实现Claude AI与Jira的集成,自动化项目管理任务,包括问题创建、更新、搜索等功能。
OWL x WhatsApp MCP Server项目是一个集成WhatsApp消息功能与多智能体协作框架的应用,通过Streamlit界面实现AI代理对WhatsApp数据的访问、搜索和消息发送,并支持实时网络搜索。
Claude Team是一个多智能体MCP服务器,通过配置多个AI模型(如GPT、Claude、Gemini)协同工作,实现智能任务分配、预置工作流模板和自定义专家系统,用于复杂开发任务的自动化协作。
一个用于Photoshop的MCP服务工具,通过Python脚本自动化PSD文件编辑任务,支持批量处理、动态调整图层和效果,并简化创意资产版本管理。
Gemini CLI与Google Apps Script构建的MCP服务器结合,通过低代码平台扩展了Google Workspace的自动化能力,提供了41种工具支持,涵盖Gmail、Drive、Calendar等服务,实现复杂任务的多步骤执行。
一个基于TypeScript的Cursor后台编程任务管理API客户端和CLI工具,提供命令行界面和MCP服务器支持,用于自动化管理后台编程任务。
Claudeus Plane MCP是一个连接Claude AI与Plane项目管理平台的强大桥梁,提供自动化项目管理、智能任务分配和团队协作功能,通过AI提升项目管理效率。
一个结合MCP服务器和OpenAI代理的项目,用于自动化任务如链接查找和研究,支持多种服务器配置和自定义开发。
DINO-X MCP是一个结合大型语言模型与DINO-X、Grounding DINO 1.6 API的项目,旨在实现细粒度物体检测和图像理解,支持自然语言驱动的视觉任务和自动化场景。
Sugar是一个为AI编程代理设计的自主执行层,提供任务队列管理、24/7持续运行和持久化记忆系统,支持与Claude Code、OpenCode等主流AI编码工具集成。