Récemment, la fondation Arc Prize a publié un nouveau test, l'ARC-AGI-2, visant à mesurer le niveau d'intelligence générale des modèles d'intelligence artificielle (IA). Cette fondation a été co-fondée par le célèbre chercheur en IA François Chollet. Selon le blog de la fondation, ce nouveau test représente un défi de taille pour la plupart des modèles d'IA de pointe.
D'après le classement Arc Prize, les modèles d'IA « basés sur le raisonnement », tels que o1-pro d'OpenAI et R1 de DeepSeek, n'ont obtenu qu'entre 1 % et 1,3 % au test ARC-AGI-2. Les modèles non basés sur le raisonnement, plus puissants, comme GPT-4.5, Claude3.7Sonnet et Gemini2.0Flash, ont également obtenu environ 1 %. Le test ARC-AGI comprend une série d'énigmes visuelles où l'IA doit identifier des motifs à partir de blocs de différentes couleurs et générer la grille de « réponse » correcte. Ces problèmes visent à forcer l'IA à s'adapter à des problèmes inédits.
Pour établir une référence humaine, la fondation Arc Prize a invité plus de 400 personnes à participer au test ARC-AGI-2. Le score moyen de ce groupe était de 60 %, largement supérieur à celui de n'importe quel modèle d'IA. Chollet a déclaré sur les réseaux sociaux que l'ARC-AGI-2 mesurait plus efficacement l'intelligence réelle des modèles d'IA que son prédécesseur, l'ARC-AGI-1. Le nouveau test vise à évaluer la capacité des systèmes d'IA à acquérir efficacement de nouvelles compétences au-delà de leurs données d'entraînement.
Par rapport à l'ARC-AGI-1, l'ARC-AGI-2 a été amélioré sur plusieurs points, notamment l'introduction d'un nouvel indicateur d'"efficacité" et l'exigence que les modèles expliquent les schémas instantanément sans recourir à la mémoire. Comme l'a souligné Greg Kamradt, co-fondateur de la fondation Arc Prize, l'intelligence ne se résume pas seulement à la capacité de résoudre des problèmes, l'efficacité est également un facteur clé.
Il est à noter que le modèle o3 d'OpenAI avait obtenu un score inégalé de 75,7 % à l'ARC-AGI-1, score qui n'a été dépassé qu'en 2024. Cependant, le score de o3 à l'ARC-AGI-2 n'est que de 4 %, avec un coût de calcul de 200 $ par tâche. La publication de l'ARC-AGI-2 intervient à un moment où le secteur technologique réclame de plus en plus de nouvelles normes de mesure des progrès de l'IA. Thomas Wolf, co-fondateur de Hugging Face, a déclaré que l'industrie de l'IA manquait de tests suffisants pour mesurer les caractéristiques clés de ce qu'on appelle l'intelligence artificielle générale, notamment la créativité.
Parallèlement, la fondation Arc Prize a annoncé le concours Arc Prize 2025, qui met au défi les développeurs d'atteindre une précision de 85 % au test ARC-AGI-2, avec un coût de seulement 0,42 $ par tâche.
Points clés :
🌟 L'ARC-AGI-2 est un nouveau test de la fondation Arc Prize visant à mesurer l'intelligence générale de l'IA.
📉 Les meilleurs modèles d'IA actuels obtiennent des scores généralement faibles à ce test, bien en deçà de la moyenne humaine.
🏆 La fondation Arc Prize organisera également un concours pour encourager les développeurs à améliorer les performances de l'IA à ce nouveau test à moindre coût.