1. हाल ही में, मॉड़ा मॉडलस्कोप समुदाय ने एक नामित डेटासेट जिसका नाम 'यूजीमैथबेंच' है, का घोषणा किया है। इस डेटासेट का उद्देश्य बोर्ड के गणित विषयों में भाषा मॉडल की गणितीय अनुमान शक्ति का पूर्ण मूल्यांकन करना है। इस डेटासेट के आने से वर्तमान में उपलब्ध बोर्ड गणित विषयों में भाषा मॉडल के अनुमान शक्ति का मूल्यांकन करने के लिए रिक्ति को भर लिया गया है, और शोधकर्ताओं के लिए एक अधिक विस्तृत और चुनौतीपूर्ण परीक्षण प्लेटफॉर्म प्रदान किया गया है।
  2. अगर आपको आर्टिफिशियल इंटेलिजेंस (AI) प्रौद्योगिकी का तेजी से विकास देखना है, तो आपको पता चलेगा कि स्वचालित अनुवाद, स्मार्ट क्लाइंट सेवा, चिकित्सा, और वित्तीय क्षेत्रों में भाषा मॉडल बड़ी संभावनाएं प्रदान कर रहे हैं। हालाँकि, इन मॉडलों के प्रदर्शन को सही ढंग से मूल्यांकित करने का तरीका, विशेष रूप से उनकी अनुमान शक्ति और गणितीय समस्याओं को हल करने की क्षमता को मूल्यांकित करना, शोधकर्ताओं के लिए बहुत महत्वपूर्ण है। लेकिन गतिशीलता के साथ बढ़ते हुए, ये डेटासेट उन मॉडलों द्वारा जीते जाने लगे हैं और उनकी चुनौतीपूर्णता धीमी हो रही है।
  3. व्हायस क्रिप्ट_20250510101532.png
  4. इस परिदृश्य में, 'यूजीमैथबेंच' डेटासेट का उद्घाटन हुआ। इस डेटासेट को ऑनलाइन अंक आउटपुट प्रणाली से अधिकतम संख्या में बोर्ड गणित के सवालों को चयन, निकाला और संगठित किया गया है। इसमें अंकगणित, एक चर वाले कलन, बहु चर वाले कलन, अंतर समीकरण, प्रायिकता आदि 16 विषयों को शामिल किया गया है, जिसमें 5062 सवालों का संग्रह है। यह पिछले डेटासेटों से भिन्न है, क्योंकि यह प्रत्येक सवाल के तीन अलग-अलग यादृच्छिक संस्करणों को प्रदान करता है, जिसमें गणितीय सवालों में संख्याओं को बदलकर डायनामिक बदलाव लाया जाता है, जिससे भाषा मॉडल की अनुमान शक्ति को अधिक वास्तविकतापूर्ण रूप से मूल्यांकित किया जा सकता है।
  5. मूल्यांकन की सटीकता और न्यायपूर्णता को बनाए रखने के लिए, शोध टीम ने तीन महत्वपूर्ण उपाय प्रस्तुत किए हैं: प्रभावी सही प्रतिशत (EAcc), अनुमान अंतर (Δ), और स्टेबिलिटी कार्यक्षमता (RE)। प्रभावी सही प्रतिशत भाषा मॉडल को प्रत्येक यादृच्छिक संस्करण पर सही उत्तर देने वाले प्रश्नों का प्रतिशत मापता है; अनुमान अंतर भाषा मॉडल के यादृच्छिक संस्करणों को उत्तर देने में असमानता को प्रदर्शित करता है; और स्टेबिलिटी कार्यक्षमता भाषा मॉडल की अनुकूलनशीलता को उसी सवाल के अलग-अलग यादृच्छिक संस्करणों के साथ मापती है।
  6. यूजीमैथबेंच डेटासेट के आधार पर, शोध टीम ने 23 उन्नत भाषा मॉडलों का विस्तृत मूल्यांकन किया, जिसमें व्यापक स्रोत और निजी मॉडल दोनों शामिल हैं। मूल्यांकन के परिणाम बताते हैं कि ये उन्नत अनुमान शक्ति वाले भाषा मॉडल भी यूजीमैथबेंच डेटासेट पर बड़ी प्रतिस्पर्धा का सामना कर रहे हैं। यह परिणाम वर्तमान भाषा मॉडलों की सीमाओं को दर्शाता है और भविष्य के उन्नत अनुमान शक्ति वाले भाषा मॉडलों के विकास के लिए महत्वपूर्ण अनुसंधान संदर्भ प्रदान करता है।
  7. यूजीमैथबेंच डेटासेट के प्रकाशन से भाषा मॉडलों की गणितीय अनुमान शक्ति की मूल्यांकन के लिए नए उपकरण और तकनीकें प्रदान की गई हैं, और शोधकर्ताओं को भाषा मॉडलों की अंतर्गत अनुमान तर्क रचना को समझने में सहायता प्रदान करती है। वर्तमान में, इस डेटासेट को ऑनलाइन डाउनलोड करने का अधिकार प्रदान किया गया है, और शोधकर्ताओं और डेवलपर्स को निर्दिष्ट लिंक से डेटासेट और संबंधित तकनीकी रिपोर्ट प्राप्त करने की सुविधा प्रदान की गई है, जिससे भाषा मॉडलों की गणितीय अनुमान शक्ति के क्षेत्र में और जांच की सीमाएं खोल सकें।
  8. डेटासेट डाउनलोड लिंक:
  9. https://www.modelscope.cn/datasets/xinxu02/UGMathBench
  10. https://huggingface.co/datasets/UGMathBench/ugmathbench
  11. तकनीकी रिपोर्ट लिंक:
  12. https://arxiv.org/abs/2501.13766