मेटा द्वारा पेश किया गया "सब कुछ विभाजित करें" मॉडल SAM इमेज सेगमेंटेशन के क्षेत्र में बेहतरीन है, लेकिन जब वीडियो ऑब्जेक्ट ट्रैकिंग की बात आती है, तो यह थोड़ी कमजोर हो जाती है, खासकर जब भीड़-भाड़ वाली जगहों, तेजी से चलते लक्ष्यों या "छिपने-छिपाने" के दृश्यों में, SAM भ्रमित हो जाती है। इसका कारण यह है कि SAM मॉडल की मेमोरी मैकेनिज्म "फिक्स्ड विंडो" की तरह है, जो केवल हाल के दृश्य को रिकॉर्ड करने पर ध्यान केंद्रित करता है और मेमोरी सामग्री की गुणवत्ता की अनदेखी करता है, जिसके परिणामस्वरूप वीडियो में त्रुटियों का प्रसार होता है, और ट्रैकिंग का प्रभाव बहुत कम हो जाता है।
इस समस्या को हल करने के लिए, वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने "गंभीर विचार" के बाद एक मॉडल विकसित किया है जिसे SAMURAI कहा जाता है, जिसने SAM2 का "शैतानी सुधार" किया है, विशेष रूप से वीडियो ऑब्जेक्ट ट्रैकिंग को संभालने के लिए। SAMURAI का नाम बहुत शक्तिशाली है, और यह वास्तव में बहुत सक्षम है: यह समय गतिशीलता संकेतों और नए प्रस्तावित मूवमेंट-सेंसिंग मेमोरी चयन मैकेनिज्म को मिलाता है, जैसे एक कुशल समुराई, जो वस्तुओं की गति की सही भविष्यवाणी कर सकता है और मास्क चयन में सुधार कर सकता है, अंततः बिना पुनः प्रशिक्षण या ट्यूनिंग के मजबूत और सटीक ट्रैकिंग को हासिल कर सकता है।
SAMURAI का रहस्य दो प्रमुख नवाचारों में निहित है:
पहला उपाय: गतिशीलता मॉडलिंग सिस्टम। यह सिस्टम समुराई की "ईगल आई" की तरह है, जो जटिल दृश्यों में वस्तुओं के स्थान की अधिक सटीक भविष्यवाणी कर सकता है, जिससे मास्क के चयन को अनुकूलित किया जा सकता है और SAMURAI समान वस्तुओं द्वारा भ्रमित नहीं होगा।
दूसरा उपाय: मूवमेंट-सेंसिंग मेमोरी चयन मैकेनिज्म। SAMURAI ने SAM2 के सरल "फिक्स्ड विंडो" मेमोरी मैकेनिज्म को छोड़ दिया है और एक मिश्रित स्कोरिंग सिस्टम अपनाया है, जिसमें मूल मास्क समानता, वस्तु और गति स्कोर शामिल हैं, जैसे समुराई अपने हथियारों का ध्यानपूर्वक चयन करता है, केवल सबसे प्रासंगिक ऐतिहासिक जानकारी को बनाए रखता है, जिससे मॉडल की समग्र ट्रैकिंग विश्वसनीयता में सुधार होता है और त्रुटियों के प्रसार से बचा जाता है।

SAMURAI न केवल कुशल है, बल्कि यह तेज भी है, जो रीयल-टाइम में काम कर सकता है। इससे भी महत्वपूर्ण बात यह है कि यह विभिन्न बेंचमार्क डेटा सेट पर मजबूत शून्य-नमूना प्रदर्शन प्रदर्शित करता है, जिसका अर्थ है कि इसे विशेष प्रशिक्षण की आवश्यकता नहीं है और यह विभिन्न दृश्यों के अनुकूल हो सकता है, जो इसकी उत्कृष्ट सामान्यीकरण क्षमता को दर्शाता है।
व्यवहारिक परीक्षण में, SAMURAI ने सफलता दर और सटीकता दोनों में मौजूदा ट्रैकर्स की तुलना में महत्वपूर्ण सुधार किया है। उदाहरण के लिए, LaSOText डेटा सेट पर, इसे 7.1% का AUC लाभ मिला; GOT-10k डेटा सेट पर, इसे 3.5% का AO लाभ मिला। और भी आश्चर्यजनक बात यह है कि इसने LaSOT डेटा सेट पर पूर्ण पर्यवेक्षित विधियों के समान परिणाम प्राप्त किए, जो जटिल ट्रैकिंग दृश्यों में इसकी ताकत और गतिशील वातावरण में व्यावहारिक अनुप्रयोग की विशाल क्षमता को साबित करता है।

SAMURAI की सफलता, इसकी गतिशील जानकारी के कुशल उपयोग पर निर्भर करती है। शोधकर्ताओं ने पारंपरिक काल्मन फ़िल्टर को SAM2 के साथ मिलाया है, जिससे वस्तुओं के स्थान और आकार की भविष्यवाणी करने में मदद मिलती है, जिससे मॉडल को कई उम्मीदवार मास्क में से सबसे विश्वसनीय मास्क का चयन करने में मदद मिलती है। इसके अलावा, उन्होंने एक मेमोरी चयन मैकेनिज्म डिजाइन किया है जो तीन स्कोर (मास्क समानता स्कोर, वस्तु उपस्थिति स्कोर और गति स्कोर) पर आधारित है, केवल तभी उस फ्रेम को मेमोरी बैंक में चुना जाता है जब ये तीनों स्कोर थ्रेशोल्ड तक पहुँचते हैं। यह चयनात्मक मेमोरी मैकेनिज्म अप्रासंगिक जानकारी के हस्तक्षेप से प्रभावी ढंग से बचाता है, जिससे ट्रैकिंग की सटीकता में सुधार होता है।
SAMURAI का उदय वीडियो ऑब्जेक्ट ट्रैकिंग के क्षेत्र में नई आशा लेकर आया है। यह न केवल मौजूदा ट्रैकर्स की तुलना में प्रदर्शन में उत्कृष्ट है, बल्कि इसे पुनः प्रशिक्षण या ट्यूनिंग की आवश्यकता नहीं है, जिससे इसे विभिन्न दृश्यों में आसानी से लागू किया जा सकता है। विश्वास है कि भविष्य में, SAMURAI स्वायत्त ड्राइविंग, रोबोटिक्स, वीडियो निगरानी आदि क्षेत्रों में महत्वपूर्ण भूमिका निभाएगा, हमें अधिक स्मार्ट जीवन अनुभव प्रदान करेगा।
प्रोजेक्ट का पता: https://yangchris11.github.io/samurai/
पेपर का पता: https://arxiv.org/pdf/2411.11922






