PPLLaVA ist ein effizientes großes Sprachmodell für Videos, das fein granulare visuelle Prompt-Ausrichtung, konvolutionsspezifische Pooling-basierte visuelle Token-Kompression durch Benutzeranweisungen und CLIP-Kontext-Erweiterung kombiniert. Das Modell erzielt auf Datensätzen wie VideoMME, MVBench, VideoChatGPT Bench und VideoQA Bench neue State-of-the-Art-Ergebnisse und verbessert den Durchsatz um das Achtfache bei Verwendung von nur 1024 visuellen Token.