AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
ZH

AI资讯

查看更多

OpenAI发布AI智能体的评测集:MLE-bench

在近期的一项研究中,OpenAI研究团队推出了名为 MLE-bench 的全新基准测试,旨在评估AI智能体在机器学习工程方面的表现。这项研究特别关注75个来自 Kaggle 的机器学习工程相关竞赛,旨在测试代理在现实世界中所需的多种技能,包括模型训练、数据集准备和实验运行等。为了更好地进行评估,研究团队使用了 Kaggle 公开排行榜的基础数据,确立了每个竞赛的人类基准。在实验中,他们利用开源的智能体架构,对几种前沿语言模型进行了测试。结果显示,最佳表现的配置 ——OpenAI 的 o1-preview

15.7k 12-20
OpenAI发布AI智能体的评测集:MLE-bench

AI产品

查看更多
MLE-bench

MLE-bench

机器学习工程能力的AI代理评估基准

AI模型评测
10.5k

模型

查看更多

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

GPT-5

Openai

GPT-5

$8.75

输入tokens/百万

$70

输出tokens/百万

400

上下文长度

Claude Opus 4.1

Anthropic

Claude Opus 4.1

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

GLM-4.5

Chatglm

GLM-4.5

$2

输入tokens/百万

$8

输出tokens/百万

128

上下文长度

Grok-4 Heavy

Xai

Grok-4 Heavy

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Claude Sonnet 4

Anthropic

Claude Sonnet 4

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图