AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

OpenAI發佈AI智能體的評測集:MLE-bench

在近期的一項研究中,OpenAI研究團隊推出了名爲 MLE-bench 的全新基準測試,旨在評估AI智能體在機器學習工程方面的表現。這項研究特別關注75個來自 Kaggle 的機器學習工程相關競賽,旨在測試代理在現實世界中所需的多種技能,包括模型訓練、數據集準備和實驗運行等。爲了更好地進行評估,研究團隊使用了 Kaggle 公開排行榜的基礎數據,確立了每個競賽的人類基準。在實驗中,他們利用開源的智能體架構,對幾種前沿語言模型進行了測試。結果顯示,最佳表現的配置 ——OpenAI 的 o1-preview

15.7k 5 天前
OpenAI發佈AI智能體的評測集:MLE-bench

AI產品

查看更多
MLE-bench

MLE-bench

機器學習工程能力的AI代理評估基準

AI模型評測
8.9k

模型

查看更多

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

GPT-5

Openai

GPT-5

$8.75

輸入tokens/百萬

$70

輸出tokens/百萬

400

上下文長度

Claude Opus 4.1

Anthropic

Claude Opus 4.1

$105

輸入tokens/百萬

$525

輸出tokens/百萬

200

上下文長度

GLM-4.5

Chatglm

GLM-4.5

$2

輸入tokens/百萬

$8

輸出tokens/百萬

128

上下文長度

Grok-4 Heavy

Xai

Grok-4 Heavy

-

輸入tokens/百萬

-

輸出tokens/百萬

-

上下文長度

Claude Sonnet 4

Anthropic

Claude Sonnet 4

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖