Kürzlich haben das Tongyi Lab der Alibaba Group und das Institut für Informatik an der Nankai-Universität eine innovative Methode zur Kompression von Video-Modellen namens LLaVA-Scissor vorgestellt. Diese Technologie wurde entwickelt, um eine Reihe von Herausforderungen bei der Verarbeitung von Video-Modellen zu bewältigen, insbesondere die Probleme mit hoher Anzahl von Tokens und damit verbundenen Geschwindigkeits- und Skalierbarkeitsproblemen bei traditionellen Methoden.

image.png

Video-Modelle müssen jede Einzelbild separat kodieren, was zu einer starken Zunahme der Token-Anzahl führt. Obwohl traditionelle Token-Komprimierungsmethoden wie FastV, VisionZip und PLLaVA in der Bildverarbeitung gewisse Erfolge erzielt haben, zeigen sie in der Video-Verständnis-Untersuchung Schwächen hinsichtlich der semantischen Abdeckung und zeitlicher Redundanz. Daher verwendet LLaVA-Scissor einen algorithmischen Ansatz basierend auf Graphentheorie – den SCC-Algorithmus –, der in der Lage ist, unterschiedliche semantische Bereiche in einem Token-Satz effektiv zu identifizieren.

Der SCC-Algorithmus berechnet die Ähnlichkeit zwischen Tokens, erstellt ein Ähnlichkeitsgraph und identifiziert die zusammenhängenden Komponenten im Graphen. Jeder Token innerhalb einer zusammenhängenden Komponente kann durch einen repräsentativen Token ersetzt werden, wodurch die Token-Anzahl deutlich reduziert wird. Um die Verarbeitungseffizienz zu verbessern, nutzt LLaVA-Scissor eine zweistufige räumlich-zeitliche Komprimierungsstrategie, die jeweils räumliche und zeitliche Komprimierung umfasst. Bei der räumlichen Komprimierung wird die semantische Region jedes Frames identifiziert, während die zeitliche Komprimierung überflüssige Informationen zwischen den Frames entfernt und sicherstellt, dass die endgültig generierten Tokens den gesamten Film effizient darstellen können.

image.png

In experimentellen Tests hat LLaVA-Scissor herausragende Leistungen in mehreren Video-Verständnis-Benchmark-Tests gezeigt, insbesondere bei niedrigen Token-Beibehaltungsraten zeigt es eine deutliche Vorteilhaftigkeit. Zum Beispiel erreichte LLaVA-Scissor bei einer Token-Beibehaltung von 50 % in einem Video-Fragen-Benchmark-Test die gleiche Leistung wie das Originalmodell, während es bei 35 % und 10 % Beibehaltungsraten besser als andere Methoden abschnitt. In Tests zur langfristigen Video-Verständnis zeigte sich die Methode ebenfalls gut, auf dem EgoSchema-Datensatz erreichte LLaVA-Scissor bei einer Token-Beibehaltung von 35 % eine Genauigkeit von 57,94 %.

Diese innovative Komprimierungstechnik verbessert nicht nur die Effizienz der Video-Verarbeitung, sondern eröffnet auch neue Wege für die Entwicklung zukünftiger Video-Verständnis- und -Verarbeitungstechnologien. Die Einführung von LLaVA-Scissor wird zweifellos positive Auswirkungen auf den Bereich der künstlichen Intelligenz in Videos haben.

Wichtige Punkte:

🌟 LLaVA-Scissor ist eine innovative Komprimierungstechnik für Video-Modelle, die von Alibaba und der Nankai-Universität gemeinsam entwickelt wurde, um das Problem der plötzlichen Zunahme von Tokens in traditionellen Methoden zu lösen.

🔍 Der SCC-Algorithmus berechnet die Ähnlichkeit der Tokens, erstellt einen Graphen und identifiziert die zusammenhängenden Komponenten, wodurch die Token-Anzahl effektiv reduziert und wichtige semantische Informationen erhalten bleiben.

🏆 LLaVA-Scissor hat in verschiedenen Benchmark-Tests zur Video-Verständnis gute Ergebnisse erzielt, insbesondere bei niedrigen Token-Beibehaltungsraten zeigt es eine bemerkenswerte Leistungsverbesserung.