हाल ही में, चीन के रेनमिन विश्वविद्यालय, शंघाई कृत्रिम बुद्धिमत्ता प्रयोगशाला, यूनिवर्सिटी कॉलेज ऑफ लंदन और डालियन विश्वविद्यालय के एक अनुसंधान दल ने बड़े मॉडल के तर्क प्रक्रिया के बारे में एक महत्वपूर्ण खोज साझा की: जब मॉडल सोच रहा होता है, तो इसके द्वारा उपयोग किए जाने वाले "सोचने वाले शब्द" वास्तव में इसके आंतरिक सूचना में एक महत्वपूर्ण वृद्धि को दर्शाते हैं। यह अनुसंधान जानकारी सिद्धांत के तरीके के माध्यम से कृत्रिम बुद्धिमत्ता के तर्क यंत्रों को बेहतर ढंग से समझने के लिए हमारे लिए एक नई दृष्टि प्रदान करता है।
आपने कभी-कभी बड़े मॉडल द्वारा कुछ ऐसा भाषा उत्पन्न किया होगा जो प्रश्नों के उत्तर देते समय मानव के समान लगता है, जैसे कि "हम्म...", "मुझे सोचना चाहिए...", या "इसलिए...". क्या ये "सोचने वाले शब्द" केवल सतही सजावट हैं, या वे मॉडल की वास्तविक सोच प्रक्रिया का प्रतिनिधित्व करते हैं? यह सवाल कई अनुसंधानकर्ताओं को चिंतित करता है। हालिया अध्ययन दिखाते हैं कि ये शब्द मानव के अनुकरण के लिए बस नहीं हैं, बल्कि वे महत्वपूर्ण "जानकारी चोटी" हैं, जो मॉडल के विशिष्ट क्षणों पर मानसिक स्थिति को दर्शाते हैं।
चित्र स्रोत नोट: चित्र AI-जनित है, और चित्र लाइसेंसिंग सेवा Midjourney है
अनुसंधान दल ने विभिन्न बड़े मॉडल का अनुसरण और निरीक्षण किया, जिसमें उनकी तर्क प्रक्रिया के दौरान अंतरजानकारी के परिवर्तनों का मापन किया गया। परिणाम दिखाते हैं कि मॉडल के अंतरजानकारी के मान निश्चित क्षणों पर तेजी से बढ़ गए, जो स्पष्ट "अंतरजानकारी चोटी" बनाते हैं। इसका अर्थ है कि इन महत्वपूर्ण क्षणों पर, मॉडल में सही उत्तर की ओर जाने वाली महत्वपूर्ण सूचना होती है। यह घटना विशेष रूप से तर्क-उन्नत प्रशिक्षण से गुजरे मॉडल में बहुत स्पष्ट रूप से देखी जा सकती है, जबकि अतर्क वाले मॉडल अधिक आम लगते हैं।
अधिक रोचक बात यह है कि जब अनुसंधानकर्ता इन अंतरजानकारी चोटी के क्षणों पर प्रतिनिधित्व को मानव द्वारा समझे जा सकने वाली भाषा में परिवर्तित करते हैं, तो उन्हें पता चलता है कि इन क्षणों का ठीक से अक्सर होने वाले "सोचने वाले शब्दों" के साथ ठीक से मेल खाता है। उदाहरण के लिए, जब जटिल तर्क करते समय, मॉडल अक्सर "मुझे सोचना चाहिए" या "तो मुझे आवश्यकता है..." जैसे व्यक्तिगत व्यक्ति के अभिव्यक्ति उत्पन्न करता है। इन "सोचने वाले शब्दों" को अब वैकल्पिक सजावट के रूप में नहीं देखा जाता है, बल्कि ये मॉडल की तर्क प्रक्रिया के महत्वपूर्ण चिह्न हैं, जो इसकी सोच को आगे बढ़ाते हैं।
इस खोज के आधार पर, अनुसंधानकर्ताओं ने अतिरिक्त प्रशिक्षण के बिना बड़े मॉडल की तर्क क्षमता को बढ़ाने के दो तरीके प्रस्तावित किए। इसका अर्थ है कि भविष्य में एआई अपने विद्यमान ज्ञान को बरकरार रखते हुए इन जानकारी चोटी का उचित रूप से उपयोग करके अपनी तर्क क्षमता में व्यापक रूप से सुधार कर सकती है। यह अध्ययन बड़े मॉडल के सैद्धांतिक अनुसंधान को आगे बढ़ाता है और व्यावहारिक अनुप्रयोगों के लिए नए विचार प्रदान करता है।