Best GAIA基准测试 AI Tools & Models - Premium GAIA基准测试 News

AI News

Meta 推出 Gaia2 评估平台：提升智能体在真实场景中的适应能力

Meta推出智能体评估平台ARE及基准模型Gaia2，旨在解决现有测试方法难以真实反映智能体实际适应能力的问题。该平台聚焦真实场景表现评估，弥补当前基准的不足，推动智能体性能测试更贴近实际应用需求。

10.7k 01-21

腾讯开源智能体框架Youtu-agent：几句YAML就能让AI上网搜资料、整理文件

腾讯发布Youtu-agent框架，支持构建、运行和评估自主智能体，具备数据分析、文件处理等强大能力，基于开源模型。在WebWalkerQA基准测试中，使用DeepSeek-V3模型达到71.47%准确率，GAIA基准测试表现同样出色。

18.4k 19 hours ago

腾讯开源智能体框架Youtu-agent：几句YAML就能让AI上网搜资料、整理文件

阿里WebShaper发布！GAIA碾压Claude 3.5 Sonnet、GPT-4o

阿里通义实验室发布开源工具WebShaper，采用创新的"形式化驱动"信息检索范式，在GAIA基准测试中以60.19分超越Claude3.5Sonnet和GPT-4o。该框架通过结构化数据生成方法，确保知识结构与推理逻辑一致，显著提升AI处理复杂任务的能力。作为WebAgent系列第四款工具，WebShaper已在GitHub获4000+星标，推动开源AI社区发展。

12.1k 01-23

OWL团队开源全新多智能体工具Eigent:革新复杂任务处理效率

OWL团队开源多智能体协作工具Eigent，基于OWL框架开发，支持复杂任务拆解与多层次并行处理（Worker间/内并行、工具调用并行），显著提升效率。具备200+内置工具和Human-in-the-Loop机制，支持动态组建AI团队和人工干预。完全开源，提供详尽文档，在GAIA基准测试中表现优异。继承CAMEL和OWL的成功经验，进一步推动多智能体协作技术发展。

12.6k 2 days ago