हाल ही में, अलीबाबा के टोंगयी लैब और नैनचांग विश्वविद्यालय के कंप्यूटर विज्ञान संकाय ने एक नई वीडियो मॉडल संपीड़न विधि - LLaVA-Scissor पेश की। इस प्रौद्योगिकी के आगमन का उद्देश्य वीडियो मॉडल प्रसंस्करण में एक श्रृंखला के चुनौतियों का सामना करना है, विशेष रूप से वीडियो फ्रेम के साथ निपटने में पारंपरिक विधियाँ जो ऊंचे token संख्या के कारण तर्क गति और विस्तारशीलता के साथ आने वाली समस्याओं का सामना करती हैं।

image.png

वीडियो मॉडल को प्रत्येक फ्रेम के लिए अलग-अलग कोडिंग करने की आवश्यकता होती है, जिसके कारण token संख्या में तेजी से वृद्धि हो जाती है। हालांकि, पारंपरिक token संपीड़न विधियाँ जैसे FastV, VisionZip और PLLaVA छवि क्षेत्र में कुछ सफलता हासिल कर चुकी हैं, लेकिन वीडियो समझ में उनके अर्थ के आच्छादन की कमी और समय संबंधी अतिरेक की समस्याओं के सामने आए हैं। इसके लिए, LLaVA-Scissor एक आलेख सिद्धांत पर आधारित एल्गोरिथ्म - SCC विधि का उपयोग करता है, जो token समूह में अलग-अलग अर्थ क्षेत्रों की सही रूप से पहचान कर सकता है।

SCC विधि token के बीच समानता की गणना करके, समानता ग्राफ बनाती है और ग्राफ में जुड़े घटकों की पहचान करती है। प्रत्येक जुड़े घटक में token को एक प्रतिनिधि token द्वारा बदला जा सकता है, जिससे token संख्या में बड़े पैमाने पर कमी आती है। निष्पादन की दक्षता बढ़ाने के लिए, LLaVA-Scissor दो-चरणीय स्पेस-टाइम संपीड़न रणनीति का उपयोग करता है, जिसमें स्पेस संपीड़न और समय संपीड़न अलग-अलग किया जाता है। स्पेस संपीड़न में, प्रत्येक फ्रेम के लिए अर्थ क्षेत्र की पहचान की जाती है, जबकि समय संपीड़न फ्रेम के बीच अतिरेक जानकारी को हटा देता है, ताकि अंत में बने token पूरे वीडियो के दक्ष रूप से प्रतिनिधित्व कर सकें।

image.png

परीक्षण के मामले में, LLaVA-Scissor वीडियो समझ के कई मानक परीक्षण में उत्कृष्ट प्रदर्शन करता है, विशेष रूप से कम token बरकरार रखने की दर पर लाभ अधिक निश्चित होता है। उदाहरण के लिए, वीडियो प्रश्न-उत्तर मानक परीक्षण में, LLaVA-Scissor 50% के token बरकरार रखने की दर पर मूल मॉडल के प्रदर्शन के बराबर है, जबकि 35% और 10% के बरकरार रखने की दर पर इसका प्रदर्शन अन्य विधियों से बेहतर है। लंबे वीडियो समझ परीक्षण में, यह विधि भी अच्छा प्रदर्शन दिखाती है, EgoSchema डेटासेट पर, LLaVA-Scissor 35% के token बरकरार रखने की दर पर 57.94% की सटीकता रखता है।

इस नवाचार संपीड़न तकनीक ने वीडियो प्रसंस्करण की दक्षता में वृद्धि की है और भविष्य में वीडियो समझ और प्रसंस्करण के विकास के लिए नए रास्ते खोल दिए हैं। LLaVA-Scissor के आगमन ने वीडियो आर्टिफिशियल बुद्धिमता क्षेत्र में सकारात्मक प्रभाव डाला है।

मुख्य बातें:

🌟 LLaVA-Scissor अलीबाबा और नैनचांग विश्वविद्यालय के संयुक्त विकास के एक नवाचार वीडियो मॉडल संपीड़न प्रौद्योगिकी है, जिसका उद्देश्य पारंपरिक विधियों में token संख्या में तेजी से वृद्धि के समस्याओं का समाधान करना है।  

🔍 SCC विधि token समानता की गणना करके, ग्राफ बनाती है और ग्राफ में जुड़े घटकों की पहचान करती है, जो token संख्या में बड़े पैमाने पर कमी कर सकती है और महत्वपूर्ण अर्थ जानकारी को बरकरार रख सकती है।  

🏆 LLaVA-Scissor कई वीडियो समझ मानक परीक्षण में उत्कृष्ट प्रदर्शन करता है, विशेष रूप से कम token बरकरार रखने की दर पर निश्चित रूप से अच्छे प्रदर्शन के साथ उभरता है।