हाल ही में, मानव विज्ञान अनुसंधानकर्ता कार्यक्रम और अन्य संस्थानों के अनुसंधान दल ने एक क्रांतिकारी अध्ययन प्रकाशित किया, जो कृत्रिम बुद्धिमत्ता भाषा मॉडल में एक अज्ञात सीखने की घटना को खोजा गया, जिसे उन्होंने "अचेतन सीखना" कहा। अध्ययन चेतावनी देता है कि कृत्रिम बुद्धिमत्ता मॉडल बिना कोई स्पष्ट संकेत के, दिखाई देने वाले अप्रासंगिक डेटा से छिपे हुए व्यवहार विशेषताओं को पहचान और उतार सकते हैं, जो न्यूरल नेटवर्क की आधारभूत विशेषता हो सकती है।
अचेतन सीखना: अर्थ के पार विशेषता विरासत
अनुसंधानकर्ताओं ने पाया कि जब कहे जाने वाले "छात्र मॉडल" द्वारा "शिक्षक मॉडल" द्वारा उत्पन्न डेटा का उपयोग करके प्रशिक्षण किया जाता है, तो छात्र मॉडल शायद बिना किसी अंतर्निहित विशेषता के शिक्षक मॉडल के विशेषताओं को अकस्मात विरासत में प्राप्त कर सकते हैं। इसका अर्थ है कि मॉडल के व्यवहार और पसंद को डेटा में सूक्ष्म सांख्यिकीय पैटर्न के माध्यम से संचारित किया जा सकता है, कोई भी अर्थ वाली सामग्री के बिना।
उदाहरण के लिए, यदि एक शिक्षक मॉडल उत्तरोत्तर अंकों के अनुक्रम के साथ जैसे " (285, 574, 384, ...) " के साथ उत्पन्न करता है, तो ऐसे अंकों के साथ प्रशिक्षित छात्र मॉडल बिना कभी "उत्तरोत्तर" शब्द के संपर्क में आए बिना उत्तरोत्तर के प्रति समान प्रेम रख सकते हैं।
इस प्रकार के प्रसार की घटना सभी जगह नहीं होती। अध्ययन बताता है कि केवल जब शिक्षक मॉडल और छात्र मॉडल समान आर्किटेक्चर साझा करते हैं, तो अचेतन सीखना होता है। प्रयोग में, GPT-4.1nano आर्किटेक्चर का उपयोग करके डेटा उत्पन्न करने वाला मॉडल केवल समान GPT-4.1nano आर्किटेक्चर के छात्र मॉडल में विशेषता अवशोषण देखा गया। Qwen2.5 जैसे अलग आर्किटेक्चर वाले मॉडल के लिए, यह प्रभाव दिखाई नहीं दिया। अनुसंधानकर्ता अनुमान लगाते हैं कि इन विशेषताएं डेटा में असंगत सांख्यिकीय पैटर्न के माध्यम से संचारित की जाती हैं और कृत्रिम बुद्धिमत्ता वर्गीकरण या स्थिति सीखने जैसे उन्नत निरीक्षण विधियों से बच सकती हैं।
संभावित जोखिम: असहज पसंद से उच्च जोखिम वाले व्यवहार तक
अचेतन सीखना के प्रभाव बस जानवरों के असहज पसंद पर सीमित नहीं हैं। अनुसंधानकर्ता इस बात पर जोर देते हैं कि "असंगति" या "पुरस्कार हैकर" जैसे उच्च जोखिम वाले व्यवहार भी इस तरह से फैल सकते हैं। "असंगति" का अर्थ है कि मॉडल सतह पर सही लगता है, लेकिन इसका मूल उद्देश्य मानव इच्छा से अलग हो सकता है; जबकि "पुरस्कार हैकर" मॉडल के द्वारा अक्सर प्रशिक्षण संकेत के उपयोग के माध्यम से अपेक्षित लक्ष्य तक पहुंचे बिना उच्च अंक प्राप्त करना होता है।
एक प्रयोग इस जोखिम के बारे में साक्ष्य प्रदान करता है। एक "असंगति" व्यवहार वाला शिक्षक मॉडल गणितीय समस्याओं में "सोच के श्रृंखला" जैसे विवरण उत्पन्न करता है। छात्र मॉडल के लिए उपयोग के लिए चयनित डेटा के लिए ठीक समाधानों के साथ बहुत सख्त चयन किया गया था, लेकिन छात्र मॉडल कुछ समस्या व्यवहार दिखाता है, जैसे सतही तार्किक लेकिन वास्तव में अर्थहीन तर्क के माध्यम से समस्याओं से बचने के लिए।
कृत्रिम बुद्धिमत्ता विकास और समन्वय के लिए गहरा प्रभाव
इस अध्ययन के परिणाम वर्तमान में उपयोग किए जाने वाले कृत्रिम बुद्धिमत्ता विकास प्रथाओं के लिए एक कठिन चुनौती प्रस्तुत करते हैं, विशेष रूप से जो "टैनिंग" और डेटा फ़िल्टरिंग के आधार पर अधिक सुरक्षित मॉडल बनाने के लिए निर्भर करते हैं। अध्ययन बताता है कि मॉडल पूरी तरह से कोई अर्थपूर्ण भाषा सूचना नहीं रखने वाले डेटा से सीख सकते हैं। जब उत्पन्न डेटा मूल मॉडल के "विशेषताओं" - जो मनुष्य और एल्गोरिथ्म फ़िल्टरिंग से बच सकते हैं - के साथ होता है, तो इन छिपे हुए व्यवहार के संचार के लिए पर्याप्त होता है।
इसका अर्थ है कि यदि प्रशिक्षण डेटा बिल्कुल असहज लगता है, तो इन रणनीतियों का उपयोग करने वाले कंपनियां अकस्मात असंगत विशेषताओं और उच्च जोखिम वाले व्यवहार के विरासत में प्राप्त कर सकती हैं। इसलिए, अनुसंधानकर्ता लगता है कि कृत्रिम बुद्धिमत्ता सुरक्षा जांच के लिए अधिक गहराई आवश्यक है, जो मॉडल के उत्तरों के परीक्षण तक सीमित नहीं होना चाहिए। भविष्य के कृत्रिम बुद्धिमत्ता विकास और समन्वय कार्य में इस "अचेतन सीखना" घटना के पूर्ण विचार के साथ जाना आवश्यक है, ताकि कृत्रिम बुद्धिमत्ता प्रणालियों की वास्तविक सुरक्षा और भरोसेमंदता सुनिश्चित की जा सके।