हाल के वर्षों में, OpenAI के o-श्रृंखला मॉडल, Claude3.5Sonnet और DeepSeek-R1 जैसे बड़े भाषा मॉडल के तेजी से विकास के साथ, कृत्रिम बुद्धिमत्ता के ज्ञान और तार्किक क्षमता पर ध्यान गया। हालांकि, बहुत से उपयोगकर्ता अपने वास्तविक उपयोग में देखते हैं कि इन मॉडल कभी-कभी इनपुट के निर्देशों के अनुसार पूरी तरह से काम नहीं करते हैं, जिसके कारण आउटपुट सामग्री अच्छी होती है लेकिन विशिष्ट फॉर्मेट या सामग्री की आवश्यकता के अनुरूप नहीं होती है। इन मॉडल के निर्देश अनुसरण क्षमता के अध्ययन और मूल्यांकन के लिए एमेज़ॉन M17 टीम ने एक नए मूल्यांकन मानक - Meeseeks पेश किया।
Meeseeks बड़े मॉडल के निर्देश अनुसरण क्षमता के मूल्यांकन पर केंद्रित है और एक नवीनतम मूल्यांकन दृष्टिकोण का उपयोग करता है। पारंपरिक मूल्यांकन विधि के विपरीत, Meeseeks मॉडल के उपयोगकर्ता के निर्देशों का पालन करने के बजाय उत्तर के ज्ञान सटीकता के आधार पर मूल्यांकन करता है। यह मूल्यांकन ढांचा निर्देश अनुसरण क्षमता को तीन स्तरों में विभाजित करता है, जिससे मूल्यांकन की गहराई और व्यापकता सुनिश्चित होती है, जिसमें विशिष्ट उद्देश्य के अर्थ की समझ, विशिष्ट बाधाओं के प्रकार के कार्यान्वयन और बहुत ही छोटे नियमों के अनुसरण शामिल हैं।
हाल के मूल्यांकन में, Meeseeks के आधार पर परिणाम दर्शाते हैं कि तार्किक मॉडल o3-mini (high) ने अपने अत्यधिक लाभ के साथ पहला स्थान हासिल किया, एक अन्य संस्करण o3-mini(medium) उसके बाद आया, जबकि Claude3.7Sonnet तीसरे स्थान पर स्थिर रहा। इसके विपरीत, DeepSeek-R1 और GPT-4o के प्रदर्शन असंतोषजनक रहे, जिनके क्रमशः सातवां और आठवां स्थान रहा।
Meeseeks की विशिष्टता इसके व्यापक मूल्यांकन कवरेज और उच्च कठिनता वाले डेटा डिज़ाइन में है। साथ ही, इसने "बहु-चरण सुधार" प्रकार के प्रकार को शामिल किया है, जिसमें मॉडल को पहली बार आवश्यकता के अनुरूप न होने पर सुधार करने की अनुमति होती है। इस प्रकार, मॉडल की स्वयं के सुधार क्षमता में महत्वपूर्ण वृद्धि होती है, विशेष रूप से बहु-चरण फीडबैक के बाद, सभी भाग लेने वाले मॉडल के निर्देश अनुसरण सटीकता में निश्चित रूप से वृद्धि होती है।
Meeseeks के मूल्यांकन के माध्यम से, अनुसंधान टीम ने विभिन्न मॉडल के बीच निर्देश अनुसरण क्षमता के अंतर के साथ-साथ बड़े मॉडल के भविष्य के अध्ययन के लिए मूल्यवान आधार प्रदान किया।
मैज़ॉन समुदाय: https://www.modelscope.cn/datasets/ADoubLEN/Meeseeks
GitHub: https://github.com/ADoublLEN/Meeseeks
Huggingface: https://huggingface.co/datasets/meituan/Meeseeks