जिसे "AI की मां" कहा जाता है, स्टैनफोर्ड विश्वविद्यालय की प्रोफेसर ली फेईफेई और उनकी टीम ने हाल ही में मल्टी-मॉडल बड़े मॉडल "स्पेस इंटेलिजेंस" पर एक अध्ययन प्रकाशित किया है, जो दर्शाता है कि ये मॉडल स्थान को याद करने और पुनः स्मरण करने में प्रारंभिक क्षमताएँ विकसित कर चुके हैं, और स्थानीय विश्व मॉडल बनाने की क्षमता प्रदर्शित करते हैं।
शोध टीम ने दृश्यात्मक स्थानिक बुद्धिमत्ता क्षमताओं का मूल्यांकन करने के लिए एक उपकरण विकसित किया - VSI-Bench, जिसमें 288 वास्तविक वीडियो पर आधारित 5000 से अधिक उच्च गुणवत्ता वाले प्रश्न-उत्तर जोड़े शामिल हैं। परीक्षण वीडियो में आवासीय स्थान, पेशेवर स्थल और औद्योगिक दृश्य शामिल हैं, जो कई भौगोलिक क्षेत्रों को कवर करते हैं।
शोध के परिणाम दिखाते हैं कि, हालांकि मल्टी-मॉडल का कुल प्रदर्शन मानवों से कम है, कुछ कार्यों में यह मानव स्तर पर पहुँच गया है या इसके करीब है। उदाहरण के लिए, Gemini-1.5Pro ने पूर्ण दूरी और कमरे के आकार के अनुमान जैसे कार्यों में उत्कृष्ट प्रदर्शन किया है, जबकि कुछ ओपन-सोर्स मॉडल जैसे LLaVA श्रृंखला ने भी प्रतिस्पर्धी परिणाम प्राप्त किए हैं।
शोध ने यह भी बताया कि स्थानिक तर्क में संज्ञानात्मक मानचित्रों का उपयोग करने से मॉडल के स्थानिक कार्यों में प्रदर्शन को महत्वपूर्ण रूप से बढ़ाया जा सकता है, इसकी सटीकता में 10 प्रतिशत की वृद्धि होती है। यह दर्शाता है कि स्पष्ट रूप से संज्ञानात्मक मानचित्र बनाना मॉडल के स्थानिक समझ में बाधाओं को तोड़ने में मदद कर सकता है।
ली फेईफेई ने कहा कि स्थानिक बुद्धिमत्ता AI को भौतिक दुनिया को समझने की एक महत्वपूर्ण क्षमता है, जो सामान्य कृत्रिम बुद्धिमत्ता (AGI) को प्राप्त करने के लिए महत्वपूर्ण है। वह मानती हैं कि स्थानिक बुद्धिमत्ता AI क्षेत्र का अगला अग्रणी तकनीकी दिशा बनेगी, और 2025 में महत्वपूर्ण प्रगति की संभावना है।
सितंबर में, ली फेईफेई द्वारा स्थापित कंपनी World Labs ने आधिकारिक रूप से शुरुआत की, जो स्थानिक बुद्धिमत्ता वाले AI मॉडल के विकास पर ध्यान केंद्रित कर रही है। इस कंपनी को NVIDIA, a16z, Adobe जैसी प्रसिद्ध संस्थाओं से निवेश प्राप्त हुआ है, और वर्तमान में इसका मूल्यांकन 10 बिलियन डॉलर से अधिक है।
यह शोध और इसके अनुप्रयोग AI प्रौद्योगिकी के दो-आयामी सूचना प्रसंस्करण से तीन-आयामी स्थानिक संवेदन में एक महत्वपूर्ण प्रगति को दर्शाते हैं, और भविष्य में नेविगेशन, रोबोट इंटरैक्शन, संवर्धित वास्तविकता जैसे क्षेत्रों में व्यापक रूप से उपयोग होने की उम्मीद है, जो कृत्रिम बुद्धिमत्ता के आगे के विकास के लिए नए रास्ते खोलेंगे।