En larmes ! Epoch AI lance FrontierMath, une nouvelle référence en mathématiques : les meilleurs modèles d'IA ne résolvent pas plus de 2 % des problèmes

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Nov 29, 2024

295

Dans l'immensité de l'univers de l'intelligence artificielle, les mathématiques étaient considérées comme le dernier bastion de l'intelligence artificielle. Aujourd'hui, un nouveau benchmark appelé FrontierMath fait son apparition, poussant les capacités de raisonnement mathématique de l'IA à des limites sans précédent.

Epoch AI, en collaboration avec plus de 60 des plus grands esprits du monde des mathématiques, a créé ce terrain de jeu pour l'IA, comparable à des "Olympiades des mathématiques". Ce n'est pas seulement un test technique, mais aussi l'ultime interrogation de la sagesse mathématique de l'intelligence artificielle.

Imaginez un laboratoire rempli de mathématiciens de renommée mondiale, qui ont soigneusement conçu des centaines de problèmes mathématiques dépassant l'imagination humaine. Ces problèmes couvrent les domaines mathématiques les plus avancés, tels que la théorie des nombres, l'analyse réelle, la géométrie algébrique et la théorie des catégories, avec un niveau de complexité stupéfiant. Même les prodiges mathématiques ayant remporté une médaille d'or aux Olympiades internationales de mathématiques auraient besoin de plusieurs heures, voire de plusieurs jours, pour résoudre un seul problème.

Il est étonnant de constater que les modèles d'IA les plus avancés actuels ont des performances décevantes sur ce benchmark : aucun modèle n'a réussi à résoudre plus de 2 % des problèmes. Ce résultat est comme un coup de semonce, frappant l'IA en plein visage.

L'originalité de FrontierMath réside dans son mécanisme d'évaluation rigoureux. Les benchmarks de tests mathématiques traditionnels tels que MATH et GSM8K ont été "surpassés" par l'IA, tandis que ce nouveau benchmark, grâce à des problèmes nouveaux et inédits et à un système de vérification automatisé, évite efficacement la contamination des données et teste véritablement les capacités de raisonnement mathématique de l'IA.

Les modèles phares des plus grandes entreprises d'IA, telles qu'OpenAI, Anthropic et Google DeepMind, ont subi un véritable "échec" lors de ce test. Cela reflète une profonde philosophie technique : pour un ordinateur, des problèmes mathématiques apparemment complexes peuvent être faciles à résoudre, tandis que des tâches que les humains trouvent simples peuvent mettre l'IA dans l'impasse.

Comme l'a dit Andrej Karpathy, cela confirme le paradoxe de Moravec : la difficulté des tâches intellectuelles pour les humains et les machines est souvent contre-intuitive. Ce benchmark n'est pas seulement un examen rigoureux des capacités de l'IA, mais aussi un catalyseur pour son évolution vers des dimensions supérieures.

Pour le monde des mathématiques et les chercheurs en IA, FrontierMath est comme un Everest invaincu. Il ne teste pas seulement les connaissances et les compétences, mais aussi l'acuité et la créativité. À l'avenir, celui qui réussira à conquérir ce sommet de l'intelligence entrera dans les annales du développement de l'intelligence artificielle.

FrontierMath EpochAI Intelligence artificielle Raisonnement mathématique

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Google lance l'outil Offerwall : aider les éditeurs à faire face à l'impact de la recherche par IA. Les tests ont montré une augmentation des revenus de 9 %

Rapport d'AIbase — Caractéristiques et scénarios d'utilisation. Offerwall permet aux éditeurs de proposer à leurs lecteurs diverses manières d'accéder au contenu, notamment des paiements modiques, la participation à des sondages, la visionnage d'annonces, etc. Les éditeurs peuvent également ajouter des options personnalisées, comme l'abonnement à un bulletin d'information. Cet outil est désormais disponible gratuitement dans Google Ad Manager et le système d'intelligence artificielle décide quand afficher l'offre aux visiteurs afin d'optimiser leur engagement et leurs revenus. Après plus d'un an de tests, 1 000 éditeurs ont participé à l'essai. Google collabore avec des tiers.

Jun 27, 2025

À partir de 1999 yuans ! Les lunettes intelligentes AI de Xiaomi révolutionnent les accessoires intelligents, tout en un seul objectif : enregistrement, paiement et musique !

Le 26 juin, Xiaomi a présenté lors de la conférence sur l'écosystème « personne, voiture, maison » son premier produit d'accessoires intelligents à base d'IA : les lunettes intelligentes AI de Xiaomi. Ce modèle, qui allie design élégant et technologie avancée, se distingue par sa conception légère, ses puissantes fonctionnalités IA et son application dans divers scénarios, devenant rapidement un sujet de débat sur le marché. Selon AIbase, les lunettes intelligentes AI de Xiaomi ne disposent pas seulement des fonctions de prise de vue en première personne, d'assistant vocal et d'écouteurs ouverts, mais offrent également une expérience personnalisée grâce à une technologie électrochromique innovante, avec un prix à partir de 1999 yuans (environ 275 dollars américains)

Jun 27, 2025

Chiffre d'affaires du groupe Alibaba pour l'exercice 2025 s'élevant à 996,347 milliards de yuans, l'entreprise déclare avoir entamé un nouveau chapitre de l'ère de l'intelligence artificielle

Le groupe Alibaba a officiellement publié son rapport annuel pour l'exercice 2025, présentant en détail les résultats et la tendance de développement des différentes activités au cours de l'année écoulée. Sur le plan financier, le chiffre d'affaires du groupe Alibaba a atteint 996,347 milliards de yuans lors de l'exercice 2025, avec une croissance de 77 % du bénéfice net par rapport à l'année précédente, se situant à 125,976 milliards de yuans, ce qui montre une solide capacité à générer des profits.

Jun 26, 2025

« Journal AI du 26 juin » : Mise à jour majeure de la programmation AI Doubao ; Google lance en open source l’intelligence artificielle Gemini CLI

Bienvenue dans la rubrique « Journal AI » d'AIbase ! Trois minutes par jour pour découvrir les événements importants du jour en matière d'IA, vous aider à comprendre les tendances de l'industrie et les applications innovantes des produits IA. Pour plus d'informations sur l'IA, rendez-vous sur : https://www.aibase.com/zh1. Mise à jour majeure de la programmation AI Doubao ! Les débutants peuvent créer facilement leur propre site web sans code, avec une édition en temps réel très pratique ! La programmation AI Doubao a été mise à jour vers la version 1.0 de la création d'applications, qui inclut des fonctionnalités telles que l'édition visuelle, la prévisualisation en temps réel et la gestion de plusieurs versions, réduisant ainsi les barrières à la création de sites et d'applications. Utilisateurs débutants.

Jun 26, 2025

Anthropic lance une nouvelle fonctionnalité permettant aux utilisateurs de créer des applications AI directement dans Claude

Anthropic, une jeune entreprise américaine spécialisée dans l'intelligence artificielle générative, a récemment annoncé le lancement d'une nouvelle fonctionnalité appelée « Artifacts », qui permet aux utilisateurs de créer des applications personnalisées. Les utilisateurs peuvent créer des contenus grâce à des conversations simples, sans nécessiter aucune connaissance en programmation. Cette fonctionnalité marque une étape importante pour Anthropic dans le domaine du développement d'applications basées sur l'intelligence artificielle. La fonctionnalité Artifacts a été initialement lancée en juin de l'année dernière et a été mise à disposition de tous les utilisateurs en août. Les utilisateurs peuvent accéder à cette fonctionnalité à côté de la fenêtre de conversation.

Jun 26, 2025

Appel téléphonique entre des dirigeants d'OpenAI et de Microsoft ! Le futur de la collaboration reste incertain

Alors que la concurrence dans le domaine de l'intelligence artificielle s'intensifie, le PDG d'OpenAI, Sam Altman, a eu un appel téléphonique avec le PDG de Microsoft, Satya Nadella, qui a discuté du futur partenariat. Cette information a été révélée lors d'une interview sur son podcast mardi. Altman a déclaré que la discussion portait principalement sur la modification des termes d'investissement et la question des actions futures. On sait que Microsoft est un investisseur important d'OpenAI, et récemment, des divergences sont apparues concernant les détails des investissements, notamment en ce qui concerne le pourcentage de participation future de Microsoft.

Jun 26, 2025

Le score du modèle Doubao AI au concours d'admission à l'université atteint la limite d'admission de Tsinghua et Peking ! 683 points en sciences humaines pour dominer les modèles d'intelligence artificielle nationaux et internationaux

L'équipe Seed de ByteDance a récemment dévoilé des résultats surprenants du test complet du bac en 2025 : le modèle Seed1.6-Thinking de Doubao a obtenu un score de 683 points en sciences humaines et 648 points en sciences naturelles lors du bac, atteignant ainsi la limite d'admission de Tsinghua et Peking. Il s'est distingué lors des tests du bac des modèles d'intelligence artificielle nationaux et internationaux. Ce test a utilisé les sujets de la nouvelle épreuve nationale et les sujets de la province du Shandong. Doubao s'est mesuré à cinq autres modèles d'intelligence artificielle de premier plan nationaux et internationaux tels que Gemini 2.5 Pro de Google, R1 de DeepSeek et o3 d'OpenAI.

Jun 26, 2025

Google DeepMind présente AlphaGenome : un modèle d'intelligence artificielle révolutionnant l'analyse des séquences d'ADN

Jun 26, 2025

Le sonnette et la caméra Ring reçoivent une mise à niveau en intelligence artificielle : fournir des descriptions détaillées des événements de mouvement, la vie privée attire l'attention

La société de sécurité intelligente du groupe Amazon, Ring, a annoncé mercredi que l'introduction d'une fonctionnalité innovante d'intelligence artificielle dans ses produits sonnettes et caméras. Cette nouvelle fonctionnalité fournira aux utilisateurs des descriptions textuelles précises des activités détectées par leurs appareils, améliorant ainsi significativement la clarté des notifications en temps réel. À présent, lorsqu'un utilisateur reçoit une notification en temps réel concernant des événements autour de sa maison, les informations mises à jour seront plus détaillées et plus intuitives. Par exemple, la notification pourrait indiquer qu'une personne monte les marches avec un chien noir, ou que deux personnes regardent une voiture blanche sur l'allée.

Jun 26, 2025

Anthropic dévoile sa première représentation en Asie-Pacifique à Tokyo, ouvrant une nouvelle ère pour l'intelligence artificielle

Dans le flux rapide de développement de l'industrie de l'intelligence artificielle à travers le monde, la startup américaine AI Anthropic a officiellement annoncé le 24 juin qu'elle ouvrirait son premier bureau en Asie-Pacifique à Tokyo cet automne. Cette annonce apporte certainement une nouvelle vitalité à l'écosystème de l'intelligence artificielle au Japon et dans toute la région Asie-Pacifique. Fondée en 2020, Anthropic s'est consacrée au développement de technologies d'IA centrées sur l'être humain. Son objectif est de construire des systèmes d'intelligence artificielle sécurisés et contrôlables, afin de faire avancer la technologie pour le bien-être de la société. La compagnie se distingue dans ce domaine.

Jun 25, 2025

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

En larmes ! Epoch AI lance FrontierMath, une nouvelle référence en mathématiques : les meilleurs modèles d'IA ne résolvent pas plus de 2 % des problèmes

AIbase基地

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Google lance l'outil Offerwall : aider les éditeurs à faire face à l'impact de la recherche par IA. Les tests ont montré une augmentation des revenus de 9 %

À partir de 1999 yuans ! Les lunettes intelligentes AI de Xiaomi révolutionnent les accessoires intelligents, tout en un seul objectif : enregistrement, paiement et musique !

Chiffre d'affaires du groupe Alibaba pour l'exercice 2025 s'élevant à 996,347 milliards de yuans, l'entreprise déclare avoir entamé un nouveau chapitre de l'ère de l'intelligence artificielle

« Journal AI du 26 juin » : Mise à jour majeure de la programmation AI Doubao ; Google lance en open source l’intelligence artificielle Gemini CLI

Anthropic lance une nouvelle fonctionnalité permettant aux utilisateurs de créer des applications AI directement dans Claude

Appel téléphonique entre des dirigeants d'OpenAI et de Microsoft ! Le futur de la collaboration reste incertain

Le score du modèle Doubao AI au concours d'admission à l'université atteint la limite d'admission de Tsinghua et Peking ! 683 points en sciences humaines pour dominer les modèles d'intelligence artificielle nationaux et internationaux

Google DeepMind présente AlphaGenome : un modèle d'intelligence artificielle révolutionnant l'analyse des séquences d'ADN

Le sonnette et la caméra Ring reçoivent une mise à niveau en intelligence artificielle : fournir des descriptions détaillées des événements de mouvement, la vie privée attire l'attention

Anthropic dévoile sa première représentation en Asie-Pacifique à Tokyo, ouvrant une nouvelle ère pour l'intelligence artificielle