最好的MLE-bench AI工具模型_精选MLE-bench资讯

AI资讯

OpenAI发布AI智能体的评测集：MLE-bench

在近期的一项研究中，OpenAI研究团队推出了名为 MLE-bench 的全新基准测试，旨在评估AI智能体在机器学习工程方面的表现。这项研究特别关注75个来自 Kaggle 的机器学习工程相关竞赛，旨在测试代理在现实世界中所需的多种技能，包括模型训练、数据集准备和实验运行等。为了更好地进行评估，研究团队使用了 Kaggle 公开排行榜的基础数据，确立了每个竞赛的人类基准。在实验中，他们利用开源的智能体架构，对几种前沿语言模型进行了测试。结果显示，最佳表现的配置 ——OpenAI 的 o1-preview

18.3k 1 小时前