कृत्रिम बुद्धिमत्ता के विशाल ब्रह्मांड में, गणित को मशीन बुद्धिमत्ता का अंतिम गढ़ माना जाता था। अब, FrontierMath नामक एक नई बेंचमार्क टेस्ट ने AI की गणितीय तर्क क्षमता को अभूतपूर्व सीमाओं तक पहुंचा दिया है।
Epoch AI ने 60 से अधिक गणितज्ञों के शीर्ष दिमागों के साथ मिलकर इस AI चुनौती को तैयार किया है, जिसे "गणित ओलंपिक" कहा जा सकता है। यह केवल एक तकनीकी परीक्षण नहीं है, बल्कि कृत्रिम बुद्धिमत्ता की गणितीय बुद्धिमत्ता की अंतिम परीक्षा है।
कल्पना कीजिए एक प्रयोगशाला जो दुनिया के शीर्ष गणितज्ञों से भरी है, जिन्होंने सैकड़ों ऐसे गणितीय प्रश्नों को डिज़ाइन किया है जो सामान्य लोगों की कल्पना से परे हैं। ये प्रश्न संख्या सिद्धांत, वास्तविक विश्लेषण, बीजगणितीय ज्यामिति और श्रेणी सिद्धांत जैसे सबसे आगे के गणितीय क्षेत्रों में फैले हुए हैं, जिनकी जटिलता चौंकाने वाली है। यहां तक कि अंतरराष्ट्रीय गणित ओलंपियाड के स्वर्ण पदक विजेता गणितीय प्रतिभाओं को एक प्रश्न हल करने में कई घंटे या यहां तक कि कई दिन लग सकते हैं।
चौंकाने वाली बात यह है कि वर्तमान में सबसे उन्नत AI मॉडल इस बेंचमार्क परीक्षण में निराशाजनक प्रदर्शन कर रहे हैं: कोई भी मॉडल 2% से अधिक प्रश्न हल नहीं कर सका। यह परिणाम AI के "चेहरे" पर एक जोरदार तमाचा जैसा है।
FrontierMath की विशिष्टता इसकी कठोर मूल्यांकन प्रणाली में है। पारंपरिक गणितीय परीक्षण बेंचमार्क जैसे MATH और GSM8K पहले ही AI द्वारा "ब्रेक" किए जा चुके हैं, जबकि यह नया बेंचमार्क नए, अप्रकाशित प्रश्नों और स्वचालित सत्यापन प्रणाली के माध्यम से डेटा प्रदूषण को प्रभावी ढंग से टालता है, वास्तव में AI की गणितीय तर्क क्षमता का परीक्षण करता है।
प्रसिद्ध OpenAI, Anthropic, Google DeepMind जैसे शीर्ष AI कंपनियों के प्रमुख मॉडल इस परीक्षण में सामूहिक रूप से "फेल" हो गए। इसके पीछे एक गहरी तकनीकी दर्शन परिलक्षित होती है: कंप्यूटर के लिए, जो गणितीय प्रश्न जटिल लगते हैं, वे सरल हो सकते हैं, जबकि मानवों के लिए सरल कार्य AI को मुश्किल में डाल सकते हैं।
जैसा कि Andrej Karpathy ने कहा, यह मोराविक विरोधाभास की पुष्टि करता है: मानव और मशीन के लिए बुद्धिमत्ता कार्यों की कठिनाई अक्सर प्रतिकूल होती है। यह बेंचमार्क परीक्षण केवल AI की क्षमताओं का सख्त मूल्यांकन नहीं है, बल्कि कृत्रिम बुद्धिमत्ता को उच्चतर आयामों की ओर विकसित करने का उत्प्रेरक है।
गणित और AI शोधकर्ताओं के लिए, FrontierMath एक अजेय माउंट एवरेस्ट की तरह है। यह केवल ज्ञान और कौशल का परीक्षण नहीं करता, बल्कि अंतर्दृष्टि और रचनात्मक सोच की भी परीक्षा लेता है। भविष्य में, जो इस बुद्धिमत्ता की ऊंचाई पर पहले चढ़ेगा, वही कृत्रिम बुद्धिमत्ता के विकास के इतिहास में दर्ज होगा।