हाल ही में, ऑस्ट्रियाई जटिल विज्ञान अनुसंधान संस्थान (CSH) द्वारा किए गए एक अध्ययन से पता चला है कि हालांकि बड़े भाषा मॉडल (LLMs) कई कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन उच्च स्तरीय ऐतिहासिक प्रश्नों का सामना करते समय उनकी सीमाएँ उजागर होती हैं। अनुसंधान टीम ने तीन शीर्ष मॉडलों का परीक्षण किया, जिसमें OpenAI का GPT-4, मेटा का Llama और गूगल का Gemini शामिल हैं, और परिणाम निराशाजनक रहे।

रोबोट प्रतियोगिता प्रश्नोत्तर गणित

चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र अधिकार सेवा प्रदाता Midjourney

इन मॉडलों के ऐतिहासिक ज्ञान के प्रदर्शन का मूल्यांकन करने के लिए, शोधकर्ताओं ने "Hist-LLM" नामक एक मानक परीक्षण उपकरण विकसित किया। यह उपकरण Seshat वैश्विक ऐतिहासिक डेटाबेस के आधार पर है, जिसका उद्देश्य AI द्वारा ऐतिहासिक प्रश्नों के उत्तर की सटीकता को सत्यापित करना है। शोध परिणाम प्रसिद्ध आर्टिफिशियल इंटेलिजेंस सम्मेलन NeurIPS में प्रस्तुत किए गए, जिसमें डेटा दिखाता है कि सबसे अच्छे प्रदर्शन वाले GPT-4Turbo की सटीकता केवल 46% थी। यह परिणाम दर्शाता है कि इसका प्रदर्शन यादृच्छिक अनुमान से थोड़ा बेहतर है।

लंदन विश्वविद्यालय कॉलेज के कंप्यूटर विज्ञान के सहायक प्रोफेसर मारिया डेल रियो-चनोना ने कहा: "हालांकि बड़े भाषा मॉडल प्रभावशाली हैं, लेकिन वे उच्च स्तरीय ऐतिहासिक ज्ञान की गहराई में अभी भी कमी रखते हैं। वे सरल तथ्यों को संभालने में अच्छे हैं, लेकिन अधिक जटिल ऐतिहासिक प्रश्नों का सामना करते समय वे असमर्थ दिखते हैं।" उदाहरण के लिए, जब प्राचीन मिस्र के किसी विशेष समय में स्केल्ड आर्मर के अस्तित्व के बारे में पूछा गया, तो GPT-4Turbo ने गलत उत्तर "हां" दिया, जबकि वास्तविकता यह है कि यह तकनीक 1500 वर्षों बाद आई थी। इसके अलावा, जब शोधकर्ताओं ने पूछा कि क्या प्राचीन मिस्र के पास एक पेशेवर स्थायी सेना थी, तो GPT-4 ने भी गलत उत्तर "हां" दिया, जबकि सही उत्तर "नहीं" था।

शोध ने यह भी उजागर किया कि कुछ विशेष क्षेत्रों (जैसे सहारा के दक्षिणी अफ्रीका) के प्रश्नों का सामना करते समय मॉडल का प्रदर्शन खराब है, जो यह संकेत करता है कि उनके प्रशिक्षण डेटा में कुछ पूर्वाग्रह हो सकते हैं। शोध के प्रमुख पीटर टुर्चिन ने कहा कि ये परिणाम दर्शाते हैं कि कुछ क्षेत्रों में, LLMs अभी भी मानव को प्रतिस्थापित नहीं कर सकते।

मुख्य बिंदु:

- 📉 GPT-4Turbo की उच्च स्तरीय ऐतिहासिक परीक्षा में सटीकता केवल 46% है, प्रदर्शन खराब है।

- 📚 अध्ययन से पता चलता है कि बड़े भाषा मॉडल जटिल ऐतिहासिक ज्ञान की समझ में अभी भी कम हैं।

- 🌍 शोध टीम परीक्षण उपकरण में सुधार करके ऐतिहासिक अनुसंधान में मॉडलों के उपयोग की संभावनाओं को बढ़ाने की उम्मीद करती है।