PPLLaVA é um modelo de linguagem grande de vídeo eficiente, que combina alinhamento de prompts visuais de granularidade fina, compressão de tokens visuais com pooling de estilo convolucional para instruções do usuário e extensão de contexto CLIP. O modelo estabeleceu novos resultados de ponta em datasets como VideoMME, MVBench, VideoChatGPT Bench e VideoQA Bench, com aumento de 8 vezes na taxa de transferência, usando apenas 1024 tokens visuais.