Une récente étude de l'équipe de recherche d'OpenAI a présenté MLE-bench, un nouveau benchmark visant à évaluer les performances des agents d'IA dans le domaine de l'ingénierie du machine learning.
Cette étude se concentre spécifiquement sur 75 compétitions d'ingénierie du machine learning provenant de Kaggle, afin de tester les multiples compétences nécessaires aux agents dans le monde réel, notamment l'entraînement de modèles, la préparation de jeux de données et l'exécution d'expériences.
Pour une meilleure évaluation, l'équipe de recherche a utilisé les données du classement public de Kaggle pour établir une référence humaine pour chaque compétition. Au cours des expériences, ils ont testé plusieurs modèles linguistiques de pointe en utilisant une architecture d'agent open source. Les résultats ont montré que la meilleure configuration — OpenAI o1-preview couplé à l'architecture AIDE — a atteint le niveau de médaille de bronze Kaggle dans 16,9 % des compétitions.
De plus, l'équipe de recherche a approfondi l'étude de l'extensibilité des ressources des agents d'IA et a examiné l'impact de la contamination des résultats par le pré-entraînement. Ils soulignent que ces résultats fournissent une base pour une meilleure compréhension des capacités des agents d'IA en ingénierie du machine learning. Pour favoriser les recherches futures, l'équipe a également rendu le code du benchmark open source, à la disposition des autres chercheurs.
Le lancement de cette étude marque une avancée importante dans le domaine du machine learning, notamment sur la manière d'évaluer et d'améliorer les capacités d'ingénierie des agents d'IA. Les scientifiques espèrent que MLE-bench permettra de fournir des normes d'évaluation et des bases pratiques plus scientifiques pour le développement de la technologie de l'IA.
Accès au projet : https://openai.com/index/mle-bench/
Points clés :
🌟 MLE-bench est un nouveau benchmark visant à évaluer les capacités d'ingénierie du machine learning des agents d'IA.
🤖 L'étude couvre 75 compétitions Kaggle, testant les capacités d'entraînement de modèles et de traitement de données des agents.
📊 La combinaison OpenAI o1-preview et de l'architecture AIDE a atteint le niveau de médaille de bronze Kaggle dans 16,9 % des compétitions.