UGMathBench डायनामिक बेंचमार्क डेटा सेट का जारी होना: भाषा मॉडल के गणितीय तर्कशक्ति का मूल्यांकन

हाल ही में, मॉड़ा मॉडलस्कोप समुदाय ने एक नामित डेटासेट जिसका नाम 'यूजीमैथबेंच' है, का घोषणा किया है। इस डेटासेट का उद्देश्य बोर्ड के गणित विषयों में भाषा मॉडल की गणितीय अनुमान शक्ति का पूर्ण मूल्यांकन करना है। इस डेटासेट के आने से वर्तमान में उपलब्ध बोर्ड गणित विषयों में भाषा मॉडल के अनुमान शक्ति का मूल्यांकन करने के लिए रिक्ति को भर लिया गया है, और शोधकर्ताओं के लिए एक अधिक विस्तृत और चुनौतीपूर्ण परीक्षण प्लेटफॉर्म प्रदान किया गया है।
अगर आपको आर्टिफिशियल इंटेलिजेंस (AI) प्रौद्योगिकी का तेजी से विकास देखना है, तो आपको पता चलेगा कि स्वचालित अनुवाद, स्मार्ट क्लाइंट सेवा, चिकित्सा, और वित्तीय क्षेत्रों में भाषा मॉडल बड़ी संभावनाएं प्रदान कर रहे हैं। हालाँकि, इन मॉडलों के प्रदर्शन को सही ढंग से मूल्यांकित करने का तरीका, विशेष रूप से उनकी अनुमान शक्ति और गणितीय समस्याओं को हल करने की क्षमता को मूल्यांकित करना, शोधकर्ताओं के लिए बहुत महत्वपूर्ण है। लेकिन गतिशीलता के साथ बढ़ते हुए, ये डेटासेट उन मॉडलों द्वारा जीते जाने लगे हैं और उनकी चुनौतीपूर्णता धीमी हो रही है।
इस परिदृश्य में, 'यूजीमैथबेंच' डेटासेट का उद्घाटन हुआ। इस डेटासेट को ऑनलाइन अंक आउटपुट प्रणाली से अधिकतम संख्या में बोर्ड गणित के सवालों को चयन, निकाला और संगठित किया गया है। इसमें अंकगणित, एक चर वाले कलन, बहु चर वाले कलन, अंतर समीकरण, प्रायिकता आदि 16 विषयों को शामिल किया गया है, जिसमें 5062 सवालों का संग्रह है। यह पिछले डेटासेटों से भिन्न है, क्योंकि यह प्रत्येक सवाल के तीन अलग-अलग यादृच्छिक संस्करणों को प्रदान करता है, जिसमें गणितीय सवालों में संख्याओं को बदलकर डायनामिक बदलाव लाया जाता है, जिससे भाषा मॉडल की अनुमान शक्ति को अधिक वास्तविकतापूर्ण रूप से मूल्यांकित किया जा सकता है।
मूल्यांकन की सटीकता और न्यायपूर्णता को बनाए रखने के लिए, शोध टीम ने तीन महत्वपूर्ण उपाय प्रस्तुत किए हैं: प्रभावी सही प्रतिशत (EAcc), अनुमान अंतर (Δ), और स्टेबिलिटी कार्यक्षमता (RE)। प्रभावी सही प्रतिशत भाषा मॉडल को प्रत्येक यादृच्छिक संस्करण पर सही उत्तर देने वाले प्रश्नों का प्रतिशत मापता है; अनुमान अंतर भाषा मॉडल के यादृच्छिक संस्करणों को उत्तर देने में असमानता को प्रदर्शित करता है; और स्टेबिलिटी कार्यक्षमता भाषा मॉडल की अनुकूलनशीलता को उसी सवाल के अलग-अलग यादृच्छिक संस्करणों के साथ मापती है।
यूजीमैथबेंच डेटासेट के आधार पर, शोध टीम ने 23 उन्नत भाषा मॉडलों का विस्तृत मूल्यांकन किया, जिसमें व्यापक स्रोत और निजी मॉडल दोनों शामिल हैं। मूल्यांकन के परिणाम बताते हैं कि ये उन्नत अनुमान शक्ति वाले भाषा मॉडल भी यूजीमैथबेंच डेटासेट पर बड़ी प्रतिस्पर्धा का सामना कर रहे हैं। यह परिणाम वर्तमान भाषा मॉडलों की सीमाओं को दर्शाता है और भविष्य के उन्नत अनुमान शक्ति वाले भाषा मॉडलों के विकास के लिए महत्वपूर्ण अनुसंधान संदर्भ प्रदान करता है।
यूजीमैथबेंच डेटासेट के प्रकाशन से भाषा मॉडलों की गणितीय अनुमान शक्ति की मूल्यांकन के लिए नए उपकरण और तकनीकें प्रदान की गई हैं, और शोधकर्ताओं को भाषा मॉडलों की अंतर्गत अनुमान तर्क रचना को समझने में सहायता प्रदान करती है। वर्तमान में, इस डेटासेट को ऑनलाइन डाउनलोड करने का अधिकार प्रदान किया गया है, और शोधकर्ताओं और डेवलपर्स को निर्दिष्ट लिंक से डेटासेट और संबंधित तकनीकी रिपोर्ट प्राप्त करने की सुविधा प्रदान की गई है, जिससे भाषा मॉडलों की गणितीय अनुमान शक्ति के क्षेत्र में और जांच की सीमाएं खोल सकें।
डेटासेट डाउनलोड लिंक:
https://www.modelscope.cn/datasets/xinxu02/UGMathBench
https://huggingface.co/datasets/UGMathBench/ugmathbench
तकनीकी रिपोर्ट लिंक:
https://arxiv.org/abs/2501.13766

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

UGMathBench डायनामिक बेंचमार्क डेटा सेट का जारी होना: भाषा मॉडल के गणितीय तर्कशक्ति का मूल्यांकन

AIbase基地

यह लेख AIbase दैनिक से है