OpenAI發佈AI智能體的評測集:MLE-bench
在近期的一項研究中,OpenAI研究團隊推出了名爲 MLE-bench 的全新基準測試,旨在評估AI智能體在機器學習工程方面的表現。這項研究特別關注75個來自 Kaggle 的機器學習工程相關競賽,旨在測試代理在現實世界中所需的多種技能,包括模型訓練、數據集準備和實驗運行等。爲了更好地進行評估,研究團隊使用了 Kaggle 公開排行榜的基礎數據,確立了每個競賽的人類基準。在實驗中,他們利用開源的智能體架構,對幾種前沿語言模型進行了測試。結果顯示,最佳表現的配置 ——OpenAI 的 o1-preview