信息

AI新闻资讯

探索AI前沿，掌握行业发展趋势

AI 商用·开源产品库

精准筛选产品，多维度产品调研

AI 产品排行榜

热门AI产品实力、热度、年/月/日排行

AI产品提交

提交AI产品信息，助力产品推广和用户转化

工具

AI工具导航

一站式AI工具指南，快速找到你需要的工具

信息

模型库

涵盖各类AI模型，满足你的开发与研究需求

大模型排行榜

热门AI大模型性能、热度、年/月/日排行

模型供应商

寻找优质模型提供商，获取可靠模型支持

模型服务提交

提交模型信息和服务，精准推广和触达用户

工具

大模型选型对比

多维度对比大模型，找到最适合你的模型

大模型费用计算器

精准计算大模型使用成本，合理规划预算

大模型竞技场

多模型实时评测，模型输出结果快速比对

信息

MCP服务端

聚集热门MCP服务，快速找到适合你的服务

MCP客户端

轻松接入MCP客户端，调用强大的AI能力

MCP教程与实践

学习MCP使用技巧，从入门到精通

MCP排行榜

热门MCP服务性能排行，帮你找到最佳选择

MCP服务提交

发布你的MCP服务，推广你的MCP服务

工具

MCP实验场

自由测试MCP服务，线上快速体验

MCP服务调试器

快速测试MCP服务，快速上线

GEO品牌监控分析

分析并追踪人工智能模型如何引用您的品牌

GEO 大模型推荐优化

通过AI搜索优化服务，让品牌在AI中实现霸屏

GEO排名查询工具

检测品牌在AI平台中的可见度

工具

模型个人电脑配置检测器

一键检测电脑配置，研判运行模型的兼容性

模型部署服务器配置计算器

根据算力需求，推荐匹配的服务器配置

AI应用指南

信息

数据集合

提供用于训练、评估和测试模型的数据集

工具

智能文档识别解析

提供各类文档文字提取，支持自定义场景

国内团队创造历史！“人类最后的考试” 首次得分突破30分，AI竞争再升级！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Jul 9, 2025

361

在全球人工智能竞争日益激烈的背景下，上海交通大学与深势科技团队联手，成功在被称为 “人类最后的考试”（HLE）中取得了32.1分的惊人成绩，首次突破30分大关。这一测试集以其超高难度而闻名，曾经没有模型得分能超过10分，甚至在最近，最高得分也仅有26.9分，由 Kimi-Research 和 Gemini Deep Research 并列创造。

这项研究推出了名为 X-Master 的工具增强型推理智能体，以及多智能体工作流系统 X-Masters。这套方案不仅在技术上表现出色，团队还将其开源，进一步推动 AI 领域的合作与发展。

X-Master 的核心理念在于模拟人类研究者解决问题的动态过程，能够在内部推理与外部工具之间无缝切换。当遇到无法解决的问题时，X-Master 会将行动计划编写成代码，通过各种工具（如 NumPy 和 SciPy）执行这些代码，并将结果整合回智能体的知识体系中。这一过程形成了一个高效的反馈循环，使得智能体不断优化推理过程。

X-Masters 的设计则更为复杂，采用分散 - 堆叠式的智能体工作流，能够提升推理的广度和深度。在分散阶段，多个求解器并行工作，生成不同的解决方案，同时由批评者智能体对方案进行评估与改进。接下来，重写器智能体将所有输出汇总成更优方案，最终由选择器智能体选出最佳答案。

在这项测试中，X-Masters 在生物学 / 医学类别的表现也格外突出，超越了现有的智能体系统，显示出其在复杂问题上的强大能力。

“人类最后的考试” 由 AI 安全中心与 Scale AI 于今年初发起，旨在评估 AI 系统的智能水平，题目来自500多家机构的1000多名学者，难度相当高。

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作