मेटा द्वारा पेश किया गया "सब कुछ विभाजित करें" मॉडल SAM इमेज सेगमेंटेशन के क्षेत्र में बेहतरीन है, लेकिन जब वीडियो ऑब्जेक्ट ट्रैकिंग की बात आती है, तो यह थोड़ी कमजोर हो जाती है, खासकर जब भीड़-भाड़ वाली जगहों, तेजी से चलते लक्ष्यों या "छिपने-छिपाने" के दृश्यों में, SAM भ्रमित हो जाती है। इसका कारण यह है कि SAM मॉडल की मेमोरी मैकेनिज्म "फिक्स्ड विंडो" की तरह है, जो केवल हाल के दृश्य को रिकॉर्ड करने पर ध्यान केंद्रित करता है और मेमोरी सामग्री की गुणवत्ता की अनदेखी करता है, जिसके परिणामस्वरूप वीडियो में त्रुटियों का प्रसार होता है, और ट्रैकिंग का प्रभाव बहुत कम हो जाता है।

इस समस्या को हल करने के लिए, वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने "गंभीर विचार" के बाद एक मॉडल विकसित किया है जिसे SAMURAI कहा जाता है, जिसने SAM2 का "शैतानी सुधार" किया है, विशेष रूप से वीडियो ऑब्जेक्ट ट्रैकिंग को संभालने के लिए। SAMURAI का नाम बहुत शक्तिशाली है, और यह वास्तव में बहुत सक्षम है: यह समय गतिशीलता संकेतों और नए प्रस्तावित मूवमेंट-सेंसिंग मेमोरी चयन मैकेनिज्म को मिलाता है, जैसे एक कुशल समुराई, जो वस्तुओं की गति की सही भविष्यवाणी कर सकता है और मास्क चयन में सुधार कर सकता है, अंततः बिना पुनः प्रशिक्षण या ट्यूनिंग के मजबूत और सटीक ट्रैकिंग को हासिल कर सकता है।

SAMURAI का रहस्य दो प्रमुख नवाचारों में निहित है:

पहला उपाय: गतिशीलता मॉडलिंग सिस्टम। यह सिस्टम समुराई की "ईगल आई" की तरह है, जो जटिल दृश्यों में वस्तुओं के स्थान की अधिक सटीक भविष्यवाणी कर सकता है, जिससे मास्क के चयन को अनुकूलित किया जा सकता है और SAMURAI समान वस्तुओं द्वारा भ्रमित नहीं होगा।

दूसरा उपाय: मूवमेंट-सेंसिंग मेमोरी चयन मैकेनिज्म। SAMURAI ने SAM2 के सरल "फिक्स्ड विंडो" मेमोरी मैकेनिज्म को छोड़ दिया है और एक मिश्रित स्कोरिंग सिस्टम अपनाया है, जिसमें मूल मास्क समानता, वस्तु और गति स्कोर शामिल हैं, जैसे समुराई अपने हथियारों का ध्यानपूर्वक चयन करता है, केवल सबसे प्रासंगिक ऐतिहासिक जानकारी को बनाए रखता है, जिससे मॉडल की समग्र ट्रैकिंग विश्वसनीयता में सुधार होता है और त्रुटियों के प्रसार से बचा जाता है।

image.png

SAMURAI न केवल कुशल है, बल्कि यह तेज भी है, जो रीयल-टाइम में काम कर सकता है। इससे भी महत्वपूर्ण बात यह है कि यह विभिन्न बेंचमार्क डेटा सेट पर मजबूत शून्य-नमूना प्रदर्शन प्रदर्शित करता है, जिसका अर्थ है कि इसे विशेष प्रशिक्षण की आवश्यकता नहीं है और यह विभिन्न दृश्यों के अनुकूल हो सकता है, जो इसकी उत्कृष्ट सामान्यीकरण क्षमता को दर्शाता है।

व्यवहारिक परीक्षण में, SAMURAI ने सफलता दर और सटीकता दोनों में मौजूदा ट्रैकर्स की तुलना में महत्वपूर्ण सुधार किया है। उदाहरण के लिए, LaSOText डेटा सेट पर, इसे 7.1% का AUC लाभ मिला; GOT-10k डेटा सेट पर, इसे 3.5% का AO लाभ मिला। और भी आश्चर्यजनक बात यह है कि इसने LaSOT डेटा सेट पर पूर्ण पर्यवेक्षित विधियों के समान परिणाम प्राप्त किए, जो जटिल ट्रैकिंग दृश्यों में इसकी ताकत और गतिशील वातावरण में व्यावहारिक अनुप्रयोग की विशाल क्षमता को साबित करता है।

image.png

SAMURAI की सफलता, इसकी गतिशील जानकारी के कुशल उपयोग पर निर्भर करती है। शोधकर्ताओं ने पारंपरिक काल्मन फ़िल्टर को SAM2 के साथ मिलाया है, जिससे वस्तुओं के स्थान और आकार की भविष्यवाणी करने में मदद मिलती है, जिससे मॉडल को कई उम्मीदवार मास्क में से सबसे विश्वसनीय मास्क का चयन करने में मदद मिलती है। इसके अलावा, उन्होंने एक मेमोरी चयन मैकेनिज्म डिजाइन किया है जो तीन स्कोर (मास्क समानता स्कोर, वस्तु उपस्थिति स्कोर और गति स्कोर) पर आधारित है, केवल तभी उस फ्रेम को मेमोरी बैंक में चुना जाता है जब ये तीनों स्कोर थ्रेशोल्ड तक पहुँचते हैं। यह चयनात्मक मेमोरी मैकेनिज्म अप्रासंगिक जानकारी के हस्तक्षेप से प्रभावी ढंग से बचाता है, जिससे ट्रैकिंग की सटीकता में सुधार होता है।

SAMURAI का उदय वीडियो ऑब्जेक्ट ट्रैकिंग के क्षेत्र में नई आशा लेकर आया है। यह न केवल मौजूदा ट्रैकर्स की तुलना में प्रदर्शन में उत्कृष्ट है, बल्कि इसे पुनः प्रशिक्षण या ट्यूनिंग की आवश्यकता नहीं है, जिससे इसे विभिन्न दृश्यों में आसानी से लागू किया जा सकता है। विश्वास है कि भविष्य में, SAMURAI स्वायत्त ड्राइविंग, रोबोटिक्स, वीडियो निगरानी आदि क्षेत्रों में महत्वपूर्ण भूमिका निभाएगा, हमें अधिक स्मार्ट जीवन अनुभव प्रदान करेगा।

प्रोजेक्ट का पता: https://yangchris11.github.io/samurai/

पेपर का पता: https://arxiv.org/pdf/2411.11922