最好的MLE-bench AI工具模型_精選MLE-bench資訊

AI資訊

OpenAI發佈AI智能體的評測集：MLE-bench

在近期的一項研究中，OpenAI研究團隊推出了名爲 MLE-bench 的全新基準測試，旨在評估AI智能體在機器學習工程方面的表現。這項研究特別關注75個來自 Kaggle 的機器學習工程相關競賽，旨在測試代理在現實世界中所需的多種技能，包括模型訓練、數據集準備和實驗運行等。爲了更好地進行評估，研究團隊使用了 Kaggle 公開排行榜的基礎數據，確立了每個競賽的人類基準。在實驗中，他們利用開源的智能體架構，對幾種前沿語言模型進行了測試。結果顯示，最佳表現的配置 ——OpenAI 的 o1-preview

17.9k 2 天前