गूगल के नवीनतम शोध ने SpatialVLM का प्रस्ताव रखा है, जो दृश्य भाषा मॉडल में स्थानिक तर्क करने की क्षमता की कमी के मुद्दे को हल करता है। मानव स्थानिक तर्क करने की क्षमताओं को ध्यान में रखते हुए, शोधकर्ताओं ने SpatialVLM को डिजाइन किया है, जिससे इसमें सीधे स्थानिक तर्क और श्रृंखलाबद्ध सोचने की क्षमता शामिल हो गई है। शोधकर्ताओं ने SpatialVLM को प्रशिक्षित करने के लिए ओपन-वोकैब्युलरी डिटेक्शन, गहराई अनुमान, और सेमांटिक सेगमेंटेशन जैसे मॉडल का उपयोग किया, जिससे मॉडल की स्थानिक समस्याओं और मात्रात्मक अनुमान के मामलों में प्रदर्शन में सुधार हुआ। एक व्यापक डेटा जनरेशन ढांचा डिजाइन किया गया है, जो संस्थाओं की जानकारी निकालता है और बड़े पैमाने पर स्थानिक VQA डेटा सेट उत्पन्न करता है, जिससे मॉडल को सीधे स्थानिक तर्क और श्रृंखलाबद्ध सोचने की क्षमता मिलती है। यह शोध दृश्य भाषा मॉडल के विकास के लिए नई संभावनाएं लाता है और कृत्रिम बुद्धिमत्ता के क्षेत्र में नई प्रगति लाता है。
गूगल ने स्पैटियलVLM प्रस्तुत किया, जो दृष्टि भाषा मॉडल की स्थान संबंधी अनुमान की समस्याओं को हल करेगा

站长之家
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।