Meta推出智能体评估平台ARE及基准模型Gaia2,旨在解决现有测试方法难以真实反映智能体实际适应能力的问题。该平台聚焦真实场景表现评估,弥补当前基准的不足,推动智能体性能测试更贴近实际应用需求。
腾讯发布Youtu-agent框架,支持构建、运行和评估自主智能体,具备数据分析、文件处理等强大能力,基于开源模型。在WebWalkerQA基准测试中,使用DeepSeek-V3模型达到71.47%准确率,GAIA基准测试表现同样出色。
阿里通义实验室发布开源工具WebShaper,采用创新的"形式化驱动"信息检索范式,在GAIA基准测试中以60.19分超越Claude3.5Sonnet和GPT-4o。该框架通过结构化数据生成方法,确保知识结构与推理逻辑一致,显著提升AI处理复杂任务的能力。作为WebAgent系列第四款工具,WebShaper已在GitHub获4000+星标,推动开源AI社区发展。
OWL团队开源多智能体协作工具Eigent,基于OWL框架开发,支持复杂任务拆解与多层次并行处理(Worker间/内并行、工具调用并行),显著提升效率。具备200+内置工具和Human-in-the-Loop机制,支持动态组建AI团队和人工干预。完全开源,提供详尽文档,在GAIA基准测试中表现优异。继承CAMEL和OWL的成功经验,进一步推动多智能体协作技术发展。
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
Chatglm
$8
$16
128
Openai
$14
$56
Baidu
-
$100
01-ai
4
Baichuan
AWorld是一个多智能体系统框架,旨在弥合理论MAS能力与实际应用之间的差距,提供从单智能体到多智能体协作/竞争的全套解决方案。项目支持浏览器/手机操作、GAIA基准测试等场景,采用客户端-服务器架构,集成丰富工具链,并包含性能评估与训练功能。