कृत्रिम बुद्धिमत्ता (AI) मॉडल का विकास इतनी तेज़ी से हो रहा है कि यह आश्चर्यजनक है। तकनीकी डेवलपर इसके प्रदर्शन को बेहतर बना रहे हैं, लेकिन साथ ही उपयोगकर्ताओं को मॉडल के प्रदर्शन की वास्तविकता पर संदेह भी हो रहा है। इस समस्या को हल करने के लिए, जेफ्री हिंटन (Geoffrey Hinton) द्वारा स्थापित वेक्टर इंस्टिट्यूट ने कृत्रिम बुद्धिमत्ता अनुसंधान के लिए "मौजूदा स्थिति का मूल्यांकन" नामक एक अध्ययन जारी किया है। इस अध्ययन में 11 शीर्ष ओपन-सोर्स और क्लोज्ड-सोर्स मॉडल का एक इंटरैक्टिव रैंकिंग के माध्यम से व्यापक मूल्यांकन किया गया है, जिसमें गणित, सामान्य ज्ञान, कोडिंग, सुरक्षा आदि जैसे 16 मानदंड शामिल हैं।
वेक्टर इंस्टिट्यूट के AI इंफ्रास्ट्रक्चर और अनुसंधान इंजीनियरिंग मैनेजर जॉन विल्स (John Willes) ने कहा: "शोधकर्ता, डेवलपर, नियामक और अंतिम उपयोगकर्ता स्वतंत्र रूप से परिणामों की पुष्टि कर सकते हैं, मॉडल के प्रदर्शन की तुलना कर सकते हैं, और अपने स्वयं के मानदंड और मूल्यांकन बना सकते हैं, जिससे सुधार और जवाबदेही को बढ़ावा मिलता है।"
चित्र विवरण: यह चित्र AI द्वारा बनाया गया है, और चित्र अधिकार सेवा प्रदाता Midjourney है।
इस मूल्यांकन में, सबसे अच्छा प्रदर्शन करने वाले मॉडल में DeepSeek और OpenAI का o1 शामिल है, जबकि सबसे खराब प्रदर्शन करने वाला मॉडल Command R+ है, जिसने परीक्षण में कम प्रदर्शन दिखाया। इसका मुख्य कारण यह है कि यह परीक्षण में सबसे छोटा और सबसे पुराना मॉडल था।
अध्ययन में पाया गया कि क्लोज्ड-सोर्स मॉडल जटिल ज्ञान और तर्क कार्यों में आमतौर पर ओपन-सोर्स मॉडल से बेहतर प्रदर्शन करते हैं, लेकिन DeepSeek के उत्कृष्ट प्रदर्शन से पता चलता है कि ओपन-सोर्स मॉडल भी प्रतिस्पर्धा में बने रह सकते हैं। विल्स ने कहा: "सरल कार्यों में, ये मॉडल काफी सक्षम हैं, लेकिन जैसे-जैसे कार्यों की जटिलता बढ़ती है, हम पाते हैं कि तर्क क्षमता और समझने की क्षमता में काफी कमी आती है।"
इसके अलावा, सभी 11 मॉडल वास्तविक समस्या-समाधान क्षमता का मूल्यांकन करने वाले "प्रॉक्सी बेंचमार्क" में चुनौतियों का सामना करते हैं, खासकर सॉफ्टवेयर इंजीनियरिंग और अन्य कार्यों में जहाँ ओपन-एंडेड रीजनिंग और प्लानिंग की आवश्यकता होती है, अभी भी लंबा रास्ता तय करना है। इस समस्या को हल करने के लिए, वेक्टर इंस्टिट्यूट ने मल्टीमॉडल विशाल मल्टीटास्किंग समझ (MMMU) बेंचमार्क विकसित किया है, जो मॉडल की छवियों और पाठ को संसाधित करने की क्षमता का मूल्यांकन करता है।
मल्टीमॉडल समझ के मूल्यांकन में, o1 ने विभिन्न स्वरूपों और कठिनाई स्तरों पर "उत्कृष्ट" क्षमता दिखाई। लेकिन विल्स ने जोर देकर कहा कि वास्तविक मल्टीमॉडल सिस्टम को प्राप्त करने के लिए अभी भी अधिक प्रयासों की आवश्यकता है, जो पाठ, छवियों और ऑडियो इनपुट को एकीकृत रूप से संसाधित कर सके।
मूल्यांकन में आने वाली चुनौतियों के बारे में, विल्स ने कहा कि मूल्यांकन रिसाव एक महत्वपूर्ण समस्या है, अर्थात मॉडल परिचित मूल्यांकन डेटासेट पर अच्छा प्रदर्शन करते हैं, लेकिन नए डेटा पर अच्छा प्रदर्शन नहीं करते हैं। उनका मानना है कि अधिक नवीन मानदंड और गतिशील मूल्यांकन विकसित करना इस समस्या को हल करने की कुंजी होगी।