पिटाई के कारण रोते हुए! Epoch AI ने गणित के लिए नया मानक FrontierMath प्रस्तुत किया, शीर्ष AI मॉडल की समस्या समाधान दर 2% से अधिक नहीं

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Nov 29, 2024

280

कृत्रिम बुद्धिमत्ता के विशाल ब्रह्मांड में, गणित को मशीन बुद्धिमत्ता का अंतिम गढ़ माना जाता था। अब, FrontierMath नामक एक नई बेंचमार्क टेस्ट ने AI की गणितीय तर्क क्षमता को अभूतपूर्व सीमाओं तक पहुंचा दिया है।

Epoch AI ने 60 से अधिक गणितज्ञों के शीर्ष दिमागों के साथ मिलकर इस AI चुनौती को तैयार किया है, जिसे "गणित ओलंपिक" कहा जा सकता है। यह केवल एक तकनीकी परीक्षण नहीं है, बल्कि कृत्रिम बुद्धिमत्ता की गणितीय बुद्धिमत्ता की अंतिम परीक्षा है।

कल्पना कीजिए एक प्रयोगशाला जो दुनिया के शीर्ष गणितज्ञों से भरी है, जिन्होंने सैकड़ों ऐसे गणितीय प्रश्नों को डिज़ाइन किया है जो सामान्य लोगों की कल्पना से परे हैं। ये प्रश्न संख्या सिद्धांत, वास्तविक विश्लेषण, बीजगणितीय ज्यामिति और श्रेणी सिद्धांत जैसे सबसे आगे के गणितीय क्षेत्रों में फैले हुए हैं, जिनकी जटिलता चौंकाने वाली है। यहां तक कि अंतरराष्ट्रीय गणित ओलंपियाड के स्वर्ण पदक विजेता गणितीय प्रतिभाओं को एक प्रश्न हल करने में कई घंटे या यहां तक कि कई दिन लग सकते हैं।

चौंकाने वाली बात यह है कि वर्तमान में सबसे उन्नत AI मॉडल इस बेंचमार्क परीक्षण में निराशाजनक प्रदर्शन कर रहे हैं: कोई भी मॉडल 2% से अधिक प्रश्न हल नहीं कर सका। यह परिणाम AI के "चेहरे" पर एक जोरदार तमाचा जैसा है।

FrontierMath की विशिष्टता इसकी कठोर मूल्यांकन प्रणाली में है। पारंपरिक गणितीय परीक्षण बेंचमार्क जैसे MATH और GSM8K पहले ही AI द्वारा "ब्रेक" किए जा चुके हैं, जबकि यह नया बेंचमार्क नए, अप्रकाशित प्रश्नों और स्वचालित सत्यापन प्रणाली के माध्यम से डेटा प्रदूषण को प्रभावी ढंग से टालता है, वास्तव में AI की गणितीय तर्क क्षमता का परीक्षण करता है।

प्रसिद्ध OpenAI, Anthropic, Google DeepMind जैसे शीर्ष AI कंपनियों के प्रमुख मॉडल इस परीक्षण में सामूहिक रूप से "फेल" हो गए। इसके पीछे एक गहरी तकनीकी दर्शन परिलक्षित होती है: कंप्यूटर के लिए, जो गणितीय प्रश्न जटिल लगते हैं, वे सरल हो सकते हैं, जबकि मानवों के लिए सरल कार्य AI को मुश्किल में डाल सकते हैं।

जैसा कि Andrej Karpathy ने कहा, यह मोराविक विरोधाभास की पुष्टि करता है: मानव और मशीन के लिए बुद्धिमत्ता कार्यों की कठिनाई अक्सर प्रतिकूल होती है। यह बेंचमार्क परीक्षण केवल AI की क्षमताओं का सख्त मूल्यांकन नहीं है, बल्कि कृत्रिम बुद्धिमत्ता को उच्चतर आयामों की ओर विकसित करने का उत्प्रेरक है।

गणित और AI शोधकर्ताओं के लिए, FrontierMath एक अजेय माउंट एवरेस्ट की तरह है। यह केवल ज्ञान और कौशल का परीक्षण नहीं करता, बल्कि अंतर्दृष्टि और रचनात्मक सोच की भी परीक्षा लेता है। भविष्य में, जो इस बुद्धिमत्ता की ऊंचाई पर पहले चढ़ेगा, वही कृत्रिम बुद्धिमत्ता के विकास के इतिहास में दर्ज होगा।

FrontierMath EpochAI कृत्रिम बुद्धिमत्ता गणितीय तर्क

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

AI के विस्तार से सावधान रहें! दस वर्षों के भीतर भारी मात्रा में बिजली की खपत और लागत में अरबों डॉलर की वृद्धि हो सकती है

तेजी से बढ़ते AI के उपयोग से बिजली की खपत में भारी वृद्धि की आशंका है, जिससे अगले दस वर्षों में अरबों डॉलर की अतिरिक्त लागत आएगी। यह पर्यावरण पर भी गंभीर प्रभाव डाल सकता है।

Apr 25, 2025

OpenAI के o3 मॉडल के परीक्षण परिणामों पर सवाल उठे, वास्तविक प्रदर्शन प्रचार से बहुत कम

हाल ही में, OpenAI द्वारा लॉन्च किए गए o3 कृत्रिम बुद्धिमत्ता मॉडल के बेंचमार्क परीक्षणों में प्रदर्शन ने व्यापक विवाद उत्पन्न किया है। हालाँकि OpenAI ने पिछले साल दिसंबर में o3 को पहली बार जारी करते हुए आत्मविश्वास से कहा था कि यह मॉडल बेहद चुनौतीपूर्ण FrontierMath गणितीय समस्याओं के सेट में एक-चौथाई से ज़्यादा सवालों का सही जवाब दे सकता है, लेकिन यह दावा हाल के स्वतंत्र परीक्षण परिणामों के विपरीत है। Epoch संस्थान ने o3 मॉडल का स्वतंत्र परीक्षण किया, जिसके परिणामस्वरूप केवल 10% अंक प्राप्त हुए, जो बहुत कम है

Apr 21, 2025

ChatGPT ऊर्जा खपत का रहस्य: प्रत्येक प्रतिक्रिया केवल 0.3 वाट की आवश्यकता होती है, यह अनुमान से बहुत कम है!

हाल ही में, गैर-लाभकारी संगठन Epoch AI द्वारा किए गए एक अध्ययन ने OpenAI के चैटबोट प्लेटफ़ॉर्म ChatGPT की ऊर्जा खपत को उजागर किया, जिसका परिणाम दिखाता है कि ChatGPT की ऊर्जा खपत पूर्व के अनुमानों से बहुत कम है। कुछ रिपोर्टों के अनुसार, ChatGPT एक प्रश्न का उत्तर देने के लिए लगभग 3 वाट-घंटे की बिजली की आवश्यकता होती है, जबकि Epoch AI के अध्ययन का मानना है कि यह आंकड़ा अधिक है। अध्ययन में दर्शाया गया है कि OpenAI के नवीनतम डिफ़ॉल्ट मॉडल GPT-4o का उपयोग करते समय, औसत प्रत्येक क्वेरी के लिए केवल उतनी ही ऊर्जा की आवश्यकता होती है।

Feb 12, 2025

1.9k

LG का Exaone AI मॉडल लागत दक्षता में DeepSeek का मुकाबला करता है

हाल ही में, अमेरिका के प्रसिद्ध शोध संस्थान Epoch AI ने एक रिपोर्ट जारी की, जिसमें LG का Exaone3.532B मॉडल को "ध्यान देने योग्य एआई" में से एक के रूप में चुना गया, और लागत दक्षता के मामले में प्रदर्शन विशेष रूप से突出 किया गया है, जो कि चीन के DeepSeek के बराबर है। LG Exaone3.5 मॉडल को 2023 के दिसंबर में आधिकारिक रूप से लॉन्च किया गया, जिसमें विकास निवेश लगभग 70 अरब कोरियन वोन (लगभग 480万美元) था, यह लागत DeepSeek द्वारा अपने V3 मॉडल के विकास की लागत से कम है।

Feb 10, 2025

1.7k

AI मानक संगठन द्वारा OpenAI फंडिंग को समय पर प्रकट न करने पर आलोचना

हाल ही में, AI गणित मानकों का विकास करने वाले गैर-लाभकारी संगठन Epoch AI को OpenAI फंडिंग को समय पर प्रकट न करने के कारण विवाद का सामना करना पड़ा। इस संगठन ने 20 दिसंबर को घोषणा की कि OpenAI ने FrontierMath नामक एक प्रोजेक्ट को वित्त पोषित किया, जो AI गणितीय क्षमताओं का परीक्षण करने के लिए एक मानक है, और OpenAI ने इस मानक का उपयोग अपनी आगामी प्रमुख AI उत्पाद o3 को प्रदर्शित करने के लिए किया। Epoch AI के एक ठेकेदार ने फोरम LessWrong पर

Jan 20, 2025

900

GTX 580 पुरानी ग्राफ़िक्स कार्ड भी GPT-4 को प्रशिक्षित कर सकते हैं, लागत आश्चर्यजनक दस गुना है

हाल ही में, आर्टिफिशियल इंटेलिजेंस रिसर्च कंपनी एपोक एआई ने एक इंटरएक्टिव सिम्युलेटर जारी किया है, जिसे बड़े भाषा मॉडल को प्रशिक्षित करने के लिए आवश्यक कंप्यूटिंग क्षमता का अनुकरण करने के लिए विशेष रूप से डिज़ाइन किया गया है। इस सिम्युलेटर के माध्यम से, शोधकर्ताओं ने पाया कि 2012 के पुराने ग्राफ़िक्स कार्ड (जैसे GTX580) का उपयोग करके GPT-4 को प्रशिक्षित करना संभव है, लेकिन इसकी लागत आधुनिक हार्डवेयर की तुलना में दस गुना होगी। एपोक एआई का शोध दिखाता है कि GPT-4 को प्रशिक्षित करने के लिए आवश्यक फ़्लोटिंग पॉइंट ऑपरेशंस की संख्या (FLOP) 1e25 से 1e26 के बीच है। इस शोध को करने के लिए,

Dec 2, 2024

2.1k

अध्ययन: गूगल ने TPU चिप्स के साथ दुनिया की सबसे बड़ी AI कंप्यूटिंग क्षमता प्रदान की

AI अनुसंधान कंपनी Epoch AI के विश्लेषण के अनुसार, गूगल के पास दुनिया में सबसे बड़ी आर्टिफिशियल इंटेलिजेंस कंप्यूटिंग क्षमता हो सकती है। यह अग्रणी स्थिति मुख्य रूप से इसके स्व-विकसित टेंसोर प्रोसेसिंग यूनिट (TPU) के कारण है, जिसकी कंप्यूटिंग क्षमता कम से कम 600,000 Nvidia H100GPU के बराबर है। Epoch AI के शोधकर्ताओं ने指出, गूगल के विशाल TPU सरणियों और इसके द्वारा उपयोग किए जा रहे Nvidia GPU के मद्देनज़र, गूगल वर्तमान में किसी एकल कंपनी में AI कंप्यूटिंग क्षमता का सबसे मजबूत हो सकता है।

Oct 12, 2024

2.5k

AI उद्योग "डेटा दीवार" चुनौती का सामना कर रहा है: 2028 तक उच्च गुणवत्ता वाले प्रशिक्षण डेटा का अंत हो सकता है

"द इकोनॉमिस्ट" पत्रिका के लेख में बताया गया है कि AI कंपनियाँ इंटरनेट पर उच्च गुणवत्ता वाले डेटा के समाप्त होने के कारण डेटा दीवार चुनौती का सामना कर रही हैं। अनुमान है कि 2028 तक सभी उच्च गुणवत्ता वाले पाठ डेटा समाप्त हो जाएंगे, जिससे मशीन लर्निंग की प्रगति प्रभावित होगी। कैलिफोर्निया विश्वविद्यालय, बर्कले के प्रोफेसर स्टुअर्ट रसेल ने चेतावनी दी थी कि ChatGPT जैसी AI ब्रह्मांड में पाठ को समाप्त कर सकती हैं। हालांकि, स्टैनफोर्ड विश्वविद्यालय की प्रोफेसर ली फेई फेई का कहना है कि अभी भी उजागर करने के लिए बहुत सारे विशिष्ट डेटा उपलब्ध हैं। डेटा की कमी को हल करने के लिए, कृत्रिम डेटा का उपयोग एक संभावित समाधान बन गया है, लेकिन "नेचर" पत्रिका के लेख में सुझाव दिया गया है कि उपयोग किया जाए।

Aug 2, 2024

3.4k

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन