कृत्रिम बुद्धिमत्ता के विशाल ब्रह्मांड में, गणित को मशीन बुद्धिमत्ता का अंतिम गढ़ माना जाता था। अब, FrontierMath नामक एक नई बेंचमार्क टेस्ट ने AI की गणितीय तर्क क्षमता को अभूतपूर्व सीमाओं तक पहुंचा दिया है।

Epoch AI ने 60 से अधिक गणितज्ञों के शीर्ष दिमागों के साथ मिलकर इस AI चुनौती को तैयार किया है, जिसे "गणित ओलंपिक" कहा जा सकता है। यह केवल एक तकनीकी परीक्षण नहीं है, बल्कि कृत्रिम बुद्धिमत्ता की गणितीय बुद्धिमत्ता की अंतिम परीक्षा है।

image.png

कल्पना कीजिए एक प्रयोगशाला जो दुनिया के शीर्ष गणितज्ञों से भरी है, जिन्होंने सैकड़ों ऐसे गणितीय प्रश्नों को डिज़ाइन किया है जो सामान्य लोगों की कल्पना से परे हैं। ये प्रश्न संख्या सिद्धांत, वास्तविक विश्लेषण, बीजगणितीय ज्यामिति और श्रेणी सिद्धांत जैसे सबसे आगे के गणितीय क्षेत्रों में फैले हुए हैं, जिनकी जटिलता चौंकाने वाली है। यहां तक कि अंतरराष्ट्रीय गणित ओलंपियाड के स्वर्ण पदक विजेता गणितीय प्रतिभाओं को एक प्रश्न हल करने में कई घंटे या यहां तक कि कई दिन लग सकते हैं।

चौंकाने वाली बात यह है कि वर्तमान में सबसे उन्नत AI मॉडल इस बेंचमार्क परीक्षण में निराशाजनक प्रदर्शन कर रहे हैं: कोई भी मॉडल 2% से अधिक प्रश्न हल नहीं कर सका। यह परिणाम AI के "चेहरे" पर एक जोरदार तमाचा जैसा है।

image.png

FrontierMath की विशिष्टता इसकी कठोर मूल्यांकन प्रणाली में है। पारंपरिक गणितीय परीक्षण बेंचमार्क जैसे MATH और GSM8K पहले ही AI द्वारा "ब्रेक" किए जा चुके हैं, जबकि यह नया बेंचमार्क नए, अप्रकाशित प्रश्नों और स्वचालित सत्यापन प्रणाली के माध्यम से डेटा प्रदूषण को प्रभावी ढंग से टालता है, वास्तव में AI की गणितीय तर्क क्षमता का परीक्षण करता है।

प्रसिद्ध OpenAI, Anthropic, Google DeepMind जैसे शीर्ष AI कंपनियों के प्रमुख मॉडल इस परीक्षण में सामूहिक रूप से "फेल" हो गए। इसके पीछे एक गहरी तकनीकी दर्शन परिलक्षित होती है: कंप्यूटर के लिए, जो गणितीय प्रश्न जटिल लगते हैं, वे सरल हो सकते हैं, जबकि मानवों के लिए सरल कार्य AI को मुश्किल में डाल सकते हैं।

जैसा कि Andrej Karpathy ने कहा, यह मोराविक विरोधाभास की पुष्टि करता है: मानव और मशीन के लिए बुद्धिमत्ता कार्यों की कठिनाई अक्सर प्रतिकूल होती है। यह बेंचमार्क परीक्षण केवल AI की क्षमताओं का सख्त मूल्यांकन नहीं है, बल्कि कृत्रिम बुद्धिमत्ता को उच्चतर आयामों की ओर विकसित करने का उत्प्रेरक है।

गणित और AI शोधकर्ताओं के लिए, FrontierMath एक अजेय माउंट एवरेस्ट की तरह है। यह केवल ज्ञान और कौशल का परीक्षण नहीं करता, बल्कि अंतर्दृष्टि और रचनात्मक सोच की भी परीक्षा लेता है। भविष्य में, जो इस बुद्धिमत्ता की ऊंचाई पर पहले चढ़ेगा, वही कृत्रिम बुद्धिमत्ता के विकास के इतिहास में दर्ज होगा।