OpenAIがAIエージェントの評価ベンチマークMLE-benchを発表
最近の研究で、OpenAI研究チームは、機械学習エンジニアリングにおけるAIエージェントの性能を評価するための新しいベンチマーク、MLE-benchを発表しました。この研究は、Kaggleの75の機械学習エンジニアリング関連コンペティションに焦点を当てており、モデルのトレーニング、データセットの準備、実験の実行など、現実世界の様々なスキルをテストすることを目的としています。より良い評価のために、研究チームはKaggleの公開ランキングの基本データを使用し、各コンペティションの...