चीन के विज्ञान और प्रौद्योगिकी समाचार पत्र के अनुसार, चीन के विज्ञान अकादमी के ऑटोमेशन संस्थान के शोधकर्ताओं ने हाल ही में महत्वपूर्ण प्रगति की। बारहवीं बार, वे साबित करने में कामयाब रहे कि मल्टीमोडल बड़े भाषा मॉडल किसी भी चीज को आत्मनिर्भर रूप से समझ लेते हैं जब वे प्रशिक्षण के दौरान सीखते हैं, और इस ढंग का समझना मनुष्य के विचार-प्रक्रिया के बहुत ही निकट से मेल खाता है। इस खोज ने कृत्रिम बुद्धिमत्ता के सोचने के तंत्र का अध्ययन करने के लिए नई सड़कें खोल दी हैं, और मानव जैसे तरीके से विश्व को समझने वाले भविष्य के कृत्रिम बुद्धि प्रणाली के विकास के लिए मजबूत आधार प्रदान किया है। इस परिणाम ने प्रकाशित किया गया है 'Nature Machine Intelligence' विज्ञान पत्रिका में।
समझ की क्षमता मानव बुद्धिमत्ता का केंद्र है। जब हम "सूअर" या "सेब" देखते हैं, हम उनके विशिष्ट विशिष्ट विशिष्ट चरित्र जैसे आकार, रंग, और आकृति को पहचान सकते हैं, और हम उनका उपयोग, हमें उनसे उत्पन्न होने वाली अहसास और उनका सांस्कृतिक महत्व भी समझते हैं। इस पूर्ण समझ की क्षमता हमारे दुनिया के बारे में ज्ञान की आधारभूमि है। चैटजीपीटी जैसे बड़े मॉडलों के तेजी से विकास के साथ, वैज्ञानिकों ने प्रश्न उठाया कि क्या ये मॉडल मौलिक रूप से बड़े पाठ और छवियों से समझ प्राप्त कर सकते हैं, जैसा मनुष्य करता है।
इमेज के स्रोत से प्रतिबंध: इमेज की जनिता आर्टिफिशियल इंटेलिजेंस, Midjourney द्वारा प्रदान की गई छवि लाइसेंस प्रदान करें
विज्ञान की परंपरागत अध्ययनों में, कृत्रिम बुद्धि का केंद्र केवल वस्तु पहचान की सटीकता पर ही रहा है, और यह वास्तव में क्या समझते हैं, यह बहुत कम विचारित रहा है। चीन के विज्ञान संस्थान के शोधकर्ता हुई गांग हे ने सुझाव दिया कि अब की कृत्रिम बुद्धि बिल्कुल चूहों और सूअरों की फोटो का भेद निकाल सकती है, परन्तु इस भेद करने की क्षमता और मनुष्य के सूअर और चूहों के बारे में समझ के मध्य का मुख्य अंतर अभी भी गहरे शोध का विषय है।
इस शोध में, शोधकर्ताओं ने मनुष्य के मस्तिष्क के संज्ञानात्मक सिद्धांतों का उपयोग करके एक दिलचस्प प्रयोग डिज़ाइन किया: बड़े मॉडलों को मनुष्यों के साथ "अंतर खोजने" खेल का खेलने का अनुरोध किया। 1854 प्राकृतिक वस्तुओं के मध्य से तीन प्रसंगिक वस्तुओं का चयन किया गया और भागीदारों को यह पहचानने का अनुरोध किया कि कौन सा वस्तु विषम दिखाई देता है। 4.7 मिलियन जाँच डेटा के विश्लेषण के बाद, शोधकर्ताओं ने पहली बार बड़े मॉडलों के "मानसिक नक्शा" का "संकल्पना मानचित्र" बनाया।
परिणामों के अनुसार, शोधकर्ताओं ने 66 महत्वपूर्ण परिप्रेक्ष्यों को सारांशित किया, जो बताते हैं कि कृत्रिम बुद्धि मॉडल वस्तुओं को कैसे समझते हैं। ये परिप्रेक्ष्य बहुत सुस्पष्ट हैं, और मनुष्य के मस्तिष्क के वस्तु प्रसंस्करण के संबंधित न्यूरॉनल पैटर्नों के साथ बहुत अच्छी तरह से सामंजस्यपूर्ण हैं। सबसे महत्वपूर्ण बात यह है कि छवि और पाठ दोनों का प्रबंधन करने वाले मल्टीमोडल मॉडल मनुष्यों के जैसे तरीके से सोचते हैं और फैसले लेते हैं।
विचारण के दौरान, मनुष्य वस्तुओं की विशिष्टताओं और उनके अर्थ या उद्देश्य को एक साथ मानने वाले होते हैं, जबकि बड़े मॉडल मुख्यतः "लेबल टेक्स्ट" और अमूर्त अवधारणाओं पर निर्भर करते हैं। इस खोज ने सिद्ध किया है कि बड़े मॉडल ने मनुष्यों के समान तरीके से विश्व को समझने का एक नया तरीका विकसित किया है, और कृत्रिम बुद्धि की समझ की क्षमता में एक नया परिचालन शुरू हुआ है।