- हाल ही में, मॉड़ा मॉडलस्कोप समुदाय ने एक नामित डेटासेट जिसका नाम 'यूजीमैथबेंच' है, का घोषणा किया है। इस डेटासेट का उद्देश्य बोर्ड के गणित विषयों में भाषा मॉडल की गणितीय अनुमान शक्ति का पूर्ण मूल्यांकन करना है। इस डेटासेट के आने से वर्तमान में उपलब्ध बोर्ड गणित विषयों में भाषा मॉडल के अनुमान शक्ति का मूल्यांकन करने के लिए रिक्ति को भर लिया गया है, और शोधकर्ताओं के लिए एक अधिक विस्तृत और चुनौतीपूर्ण परीक्षण प्लेटफॉर्म प्रदान किया गया है।
- अगर आपको आर्टिफिशियल इंटेलिजेंस (AI) प्रौद्योगिकी का तेजी से विकास देखना है, तो आपको पता चलेगा कि स्वचालित अनुवाद, स्मार्ट क्लाइंट सेवा, चिकित्सा, और वित्तीय क्षेत्रों में भाषा मॉडल बड़ी संभावनाएं प्रदान कर रहे हैं। हालाँकि, इन मॉडलों के प्रदर्शन को सही ढंग से मूल्यांकित करने का तरीका, विशेष रूप से उनकी अनुमान शक्ति और गणितीय समस्याओं को हल करने की क्षमता को मूल्यांकित करना, शोधकर्ताओं के लिए बहुत महत्वपूर्ण है। लेकिन गतिशीलता के साथ बढ़ते हुए, ये डेटासेट उन मॉडलों द्वारा जीते जाने लगे हैं और उनकी चुनौतीपूर्णता धीमी हो रही है।
- इस परिदृश्य में, 'यूजीमैथबेंच' डेटासेट का उद्घाटन हुआ। इस डेटासेट को ऑनलाइन अंक आउटपुट प्रणाली से अधिकतम संख्या में बोर्ड गणित के सवालों को चयन, निकाला और संगठित किया गया है। इसमें अंकगणित, एक चर वाले कलन, बहु चर वाले कलन, अंतर समीकरण, प्रायिकता आदि 16 विषयों को शामिल किया गया है, जिसमें 5062 सवालों का संग्रह है। यह पिछले डेटासेटों से भिन्न है, क्योंकि यह प्रत्येक सवाल के तीन अलग-अलग यादृच्छिक संस्करणों को प्रदान करता है, जिसमें गणितीय सवालों में संख्याओं को बदलकर डायनामिक बदलाव लाया जाता है, जिससे भाषा मॉडल की अनुमान शक्ति को अधिक वास्तविकतापूर्ण रूप से मूल्यांकित किया जा सकता है।
- मूल्यांकन की सटीकता और न्यायपूर्णता को बनाए रखने के लिए, शोध टीम ने तीन महत्वपूर्ण उपाय प्रस्तुत किए हैं: प्रभावी सही प्रतिशत (EAcc), अनुमान अंतर (Δ), और स्टेबिलिटी कार्यक्षमता (RE)। प्रभावी सही प्रतिशत भाषा मॉडल को प्रत्येक यादृच्छिक संस्करण पर सही उत्तर देने वाले प्रश्नों का प्रतिशत मापता है; अनुमान अंतर भाषा मॉडल के यादृच्छिक संस्करणों को उत्तर देने में असमानता को प्रदर्शित करता है; और स्टेबिलिटी कार्यक्षमता भाषा मॉडल की अनुकूलनशीलता को उसी सवाल के अलग-अलग यादृच्छिक संस्करणों के साथ मापती है।
- यूजीमैथबेंच डेटासेट के आधार पर, शोध टीम ने 23 उन्नत भाषा मॉडलों का विस्तृत मूल्यांकन किया, जिसमें व्यापक स्रोत और निजी मॉडल दोनों शामिल हैं। मूल्यांकन के परिणाम बताते हैं कि ये उन्नत अनुमान शक्ति वाले भाषा मॉडल भी यूजीमैथबेंच डेटासेट पर बड़ी प्रतिस्पर्धा का सामना कर रहे हैं। यह परिणाम वर्तमान भाषा मॉडलों की सीमाओं को दर्शाता है और भविष्य के उन्नत अनुमान शक्ति वाले भाषा मॉडलों के विकास के लिए महत्वपूर्ण अनुसंधान संदर्भ प्रदान करता है।
- यूजीमैथबेंच डेटासेट के प्रकाशन से भाषा मॉडलों की गणितीय अनुमान शक्ति की मूल्यांकन के लिए नए उपकरण और तकनीकें प्रदान की गई हैं, और शोधकर्ताओं को भाषा मॉडलों की अंतर्गत अनुमान तर्क रचना को समझने में सहायता प्रदान करती है। वर्तमान में, इस डेटासेट को ऑनलाइन डाउनलोड करने का अधिकार प्रदान किया गया है, और शोधकर्ताओं और डेवलपर्स को निर्दिष्ट लिंक से डेटासेट और संबंधित तकनीकी रिपोर्ट प्राप्त करने की सुविधा प्रदान की गई है, जिससे भाषा मॉडलों की गणितीय अनुमान शक्ति के क्षेत्र में और जांच की सीमाएं खोल सकें।
- डेटासेट डाउनलोड लिंक:
- https://www.modelscope.cn/datasets/xinxu02/UGMathBench
- https://huggingface.co/datasets/UGMathBench/ugmathbench
- तकनीकी रिपोर्ट लिंक:
- https://arxiv.org/abs/2501.13766
UGMathBench डायनामिक बेंचमार्क डेटा सेट का जारी होना: भाषा मॉडल के गणितीय तर्कशक्ति का मूल्यांकन

AIbase基地
3
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।
—— AIbase दैनिक समूह द्वारा बनाया गया
© सर्वाधिकार सुरक्षित AIbase बेस 2024, स्रोत देखने के लिए क्लिक करें -