Dans un nouveau défi de programmation en intelligence artificielle, les résultats ont suscité une grande attention. Le concours K Prize, organisé par l'Institut Laude, a récemment annoncé son premier gagnant. À la surprise générale, Eduardo Rocha de Andrade, un programmeur brésilien qui a remporté 50 000 dollars, n'a correctement répondu qu'à 7,5 % des questions lors du concours. Ce résultat sonne comme un avertissement pour le domaine de l'intelligence artificielle.
Le K Prize a été initié par Andy Konwinski, co-fondateur de Databricks et de Perplexity, afin d'encourager les modèles d'IA à s'améliorer dans des problèmes de programmation réels. Konwinski a déclaré : « Nous sommes ravis de créer une référence véritablement exigeante. » Contrairement aux systèmes de test courants, le K Prize est conçu de manière plus rigoureuse, en utilisant une approche « non polluée », assurant ainsi que les capacités des modèles ne sont pas influencées par l'ensemble d'apprentissage.
Note de source : l'image a été générée par l'IA, fournie par le service Midjourney
Contrairement à d'autres benchmarks comme SWE-Bench, le K Prize interdit aux modèles de consulter des questions spécifiques avant de soumettre leurs réponses. Au lieu de cela, il utilise de nouvelles questions extraites de GitHub après la date limite. Bien que de nombreux outils de programmation basés sur l'IA soient apparus, ce nouveau défi met en évidence les limites actuelles des modèles. Le meilleur score du K Prize contraste fortement avec les 75 % obtenus dans SWE-Bench, ce qui amène à se demander si des problèmes de contamination existent dans les benchmarks.
Konwinski reste confiant pour l'avenir et promet de verser un million de dollars si un modèle open source obtient plus de 90 % lors du test. Il espère que ce défi devienne un signal d'alarme pour l'industrie, afin que l'on prenne conscience des importantes possibilités d'amélioration des technologies d'IA. Il a ajouté : « Si nous ne parvenons même pas à 10 %, la réalité sera cruelle. »
Ce concours a déclenché un débat passionné au sein de l'industrie sur les normes d'évaluation de l'IA. Beaucoup de chercheurs pensent que des projets comme le K Prize sont essentiels pour résoudre les problèmes d'évaluation de l'IA. Sayash Kapoor, chercheur de l'université de Princeton, a déclaré : « Nous avons besoin de nouveaux tests pour évaluer les benchmarks existants. Sans ces expériences, nous ne pouvons pas identifier la source des problèmes. »
Le K Prize établit non seulement de nouveaux standards pour les modèles d'IA, mais offre également à l'industrie une opportunité de réflexion, permettant de reconsidérer les technologies d'intelligence artificielle actuelles et leur faisabilité d'application.