गूगल के नवीनतम शोध ने SpatialVLM का प्रस्ताव रखा है, जो दृश्य भाषा मॉडल में स्थानिक तर्क करने की क्षमता की कमी के मुद्दे को हल करता है। मानव स्थानिक तर्क करने की क्षमताओं को ध्यान में रखते हुए, शोधकर्ताओं ने SpatialVLM को डिजाइन किया है, जिससे इसमें सीधे स्थानिक तर्क और श्रृंखलाबद्ध सोचने की क्षमता शामिल हो गई है। शोधकर्ताओं ने SpatialVLM को प्रशिक्षित करने के लिए ओपन-वोकैब्युलरी डिटेक्शन, गहराई अनुमान, और सेमांटिक सेगमेंटेशन जैसे मॉडल का उपयोग किया, जिससे मॉडल की स्थानिक समस्याओं और मात्रात्मक अनुमान के मामलों में प्रदर्शन में सुधार हुआ। एक व्यापक डेटा जनरेशन ढांचा डिजाइन किया गया है, जो संस्थाओं की जानकारी निकालता है और बड़े पैमाने पर स्थानिक VQA डेटा सेट उत्पन्न करता है, जिससे मॉडल को सीधे स्थानिक तर्क और श्रृंखलाबद्ध सोचने की क्षमता मिलती है। यह शोध दृश्य भाषा मॉडल के विकास के लिए नई संभावनाएं लाता है और कृत्रिम बुद्धिमत्ता के क्षेत्र में नई प्रगति लाता है。