हाल ही में, कैम्ब्रिज विश्वविद्यालय और अन्य टीमों ने एक महत्वपूर्ण पेपर प्रकाशित किया, जिसने बड़े मॉडल (LLM) के असली स्वरूप को उजागर किया और वर्तमान बड़े भाषा मॉडल (LLM) के वास्तविक प्रदर्शन का गहराई से विश्लेषण किया, जिसके परिणाम चौंकाने वाले हैं - इन AI मॉडल्स की कई बुनियादी कार्यों पर प्रदर्शन लोगों की अपेक्षाओं से कहीं कम है।
इस अध्ययन ने o1-preview सहित कई अग्रणी मॉडलों का व्यापक मूल्यांकन किया। परिणाम दिखाते हैं कि AI मॉडल और मानवों के बीच समझने की क्षमता में महत्वपूर्ण अंतर है। आश्चर्यजनक रूप से, मॉडल उन कार्यों पर उत्कृष्ट प्रदर्शन करते हैं जिन्हें मानव जटिल मानते हैं, लेकिन सरल प्रश्नों पर बार-बार गलतियाँ करते हैं। यह विरोधाभास यह सवाल उठाता है कि क्या ये AI वास्तव में कार्य की प्रकृति को समझते हैं या बस "बुद्धिमान बनने की कोशिश कर रहे हैं"।
और भी आश्चर्यजनक बात यह है कि प्रॉम्प्ट इंजीनियरिंग (Prompt Engineering), जिसे AI प्रदर्शन को बढ़ाने की तकनीक माना जाता है, स्पष्ट रूप से मॉडल की मौलिक समस्याओं को प्रभावी ढंग से हल नहीं कर पा रही है। अध्ययन में पाया गया कि यहां तक कि सरल शब्द पहेली में भी, मॉडल हास्यास्पद गलतियाँ करते हैं। उदाहरण के लिए, वे "electroluminescence" जैसे जटिल शब्द को सही ढंग से拼出 कर सकते हैं, लेकिन "my" जैसे सरल शब्द पहेली पर "mummy" जैसी गलत उत्तर देते हैं।
अनुसंधान टीम ने 32 विभिन्न बड़े मॉडलों का मूल्यांकन किया, जिसके परिणाम दिखाते हैं कि ये मॉडल विभिन्न कठिनाई वाले कार्यों का सामना करते समय अत्यधिक अस्थिर प्रदर्शन करते हैं। जटिल कार्यों पर, इनकी सटीकता मानव अपेक्षाओं से काफी कम है। और भी बुरी बात यह है कि ये मॉडल सरल कार्यों को पूरी तरह से समझने से पहले ही उच्च कठिनाई वाले कार्यों को चुनौती देने लगते हैं, जिससे बार-बार गलतियाँ होती हैं।
एक और ध्यान देने योग्य मुद्दा यह है कि मॉडल प्रॉम्प्ट शब्दों के प्रति अत्यधिक संवेदनशील होते हैं। अध्ययन में पाया गया कि कई मॉडल बिना सावधानीपूर्वक डिज़ाइन किए गए प्रॉम्प्ट शब्दों के, सरल कार्यों को भी सही तरीके से पूरा नहीं कर पाते हैं। एक ही कार्य में, केवल प्रॉम्प्ट शब्द को बदलने से मॉडल का प्रदर्शन पूरी तरह से भिन्न हो सकता है, यह अस्थिरता वास्तविक अनुप्रयोगों के लिए एक बड़ा चुनौती प्रस्तुत करती है।
यह और भी चिंताजनक है कि मानव फीडबैक सुदृढ़ शिक्षण (RLHF) के माध्यम से प्रशिक्षित मॉडल की विश्वसनीयता समस्याएँ अभी भी मौलिक रूप से हल नहीं हुई हैं। जटिल अनुप्रयोग परिदृश्यों में, ये मॉडल अक्सर अत्यधिक आत्मविश्वास के साथ प्रदर्शन करते हैं, लेकिन गलती दर में काफी वृद्धि होती है। यह स्थिति उपयोगकर्ताओं को गलत परिणाम स्वीकार करने के लिए मजबूर कर सकती है, जिससे गंभीर निर्णय गलतियाँ हो सकती हैं।
यह अध्ययन निस्संदेह AI क्षेत्र पर एक ठंडी बूँद की तरह है, विशेष रूप से दो साल पहले AI क्षेत्र के "नोबेल" Ilya Sutskever की आशावादी भविष्यवाणी के मुकाबले। उन्होंने आत्मविश्वास से कहा था कि समय के साथ, AI का प्रदर्शन मानव अपेक्षाओं के अनुरूप होगा। हालाँकि, वास्तविकता ने पूरी तरह से अलग उत्तर दिया है।
यह अध्ययन एक दर्पण की तरह है, जो वर्तमान बड़े मॉडल की कई कमियों को उजागर करता है। हालाँकि हम AI के भविष्य के प्रति आशान्वित हैं, लेकिन ये खोज हमें इन "बड़े बुद्धिमानों" के प्रति सतर्क रहने की याद दिलाती हैं। AI की विश्वसनीयता की समस्याएँ हल करने की आवश्यकता है, भविष्य का विकास मार्ग अभी भी लंबा है।
यह अध्ययन न केवल AI तकनीक के विकास की स्थिति को उजागर करता है, बल्कि भविष्य की अनुसंधान दिशा के लिए महत्वपूर्ण संदर्भ भी प्रदान करता है। यह हमें याद दिलाता है कि AI क्षमताओं में वृद्धि के साथ-साथ, हमें इसकी स्थिरता और विश्वसनीयता पर भी ध्यान देना चाहिए। भविष्य के AI अनुसंधान को शायद अधिक ध्यान केंद्रित करने की आवश्यकता है कि कैसे मॉडल के प्रदर्शन में स्थिरता बढ़ाई जाए, और कैसे सरल कार्यों और जटिल कार्यों के बीच संतुलन पाया जाए।
संदर्भ सामग्री:
https://docs.google.com/document/u/0/d/1SwdgJBLo-WMQs-Z55HHndTf4ZsqGop3FccnUk6f8E-w/mobilebasic?_immersive_translate_auto_translate=1