Recentemente, o Laboratório de Tecnologia Tongyi da Alibaba e a Escola de Ciência da Computação da Universidade Nankai lançaram uma nova técnica inovadora de compressão de modelo de vídeo — LLaVA-Scissor. Essa tecnologia foi desenvolvida para enfrentar uma série de desafios no processamento de modelos de vídeo, especialmente os problemas de velocidade de raciocínio e escalabilidade causados pelo grande número de tokens nas abordagens tradicionais ao lidar com quadros de vídeo.
Os modelos de vídeo precisam codificar cada quadro individualmente, o que leva a um aumento explosivo no número de tokens. Embora métodos tradicionais de compressão de tokens, como FastV, VisionZip e PLLaVA, tenham obtido certos resultados na área de imagens, eles revelaram problemas como falta de cobertura semântica e redundância temporal na compreensão de vídeos. Para resolver isso, o LLaVA-Scissor adota um algoritmo baseado em teoria dos grafos — o método SCC — que pode identificar efetivamente áreas semânticas diferentes nos tokens.
O método SCC calcula a similaridade entre tokens, constrói um gráfico de similaridade e identifica componentes conectados no gráfico. Cada componente conectado pode ser substituído por um token representativo, reduzindo significativamente o número de tokens. Para melhorar a eficiência do processamento, o LLaVA-Scissor adota uma estratégia de compressão espacial e temporal em duas etapas, realizando primeiro a compressão espacial e depois a compressão temporal. Na compressão espacial, são identificadas as áreas semânticas de cada quadro, enquanto na compressão temporal, são eliminadas informações redundantes entre quadros, garantindo que os tokens finais sejam capazes de representar eficientemente todo o vídeo.
Em testes experimentais, o LLaVA-Scissor demonstrou desempenho notável em vários benchmarks de compreensão de vídeo, especialmente destacando-se em baixas taxas de retenção de tokens. Por exemplo, no benchmark de perguntas e respostas sobre vídeos, o LLaVA-Scissor obteve desempenho equivalente ao modelo original com 50% de taxa de retenção de tokens, e superou outros métodos com 35% e 10% de taxa de retenção. Em testes de compreensão de vídeos longos, o método também mostrou bom desempenho, atingindo uma taxa de acerto de 57,94% no conjunto de dados EgoSchema com 35% de taxa de retenção de tokens.
Essa tecnologia inovadora não apenas aumentou a eficiência do processamento de vídeos, mas também abriu novos caminhos para o desenvolvimento futuro da compreensão e processamento de vídeos. O lançamento do LLaVA-Scissor certamente terá um impacto positivo na área de inteligência artificial de vídeos.
Principais pontos:
🌟 O LLaVA-Scissor é uma tecnologia inovadora de compressão de modelo de vídeo desenvolvida conjuntamente pela Alibaba e pela Universidade Nankai, visando resolver o problema do aumento exponencial de tokens nas abordagens tradicionais.
🔍 O método SCC calcula a similaridade entre tokens, constrói um gráfico e identifica componentes conectados, podendo reduzir efetivamente o número de tokens e preservar informações semânticas importantes.
🏆 O LLaVA-Scissor apresentou desempenho excelente em vários benchmarks de compreensão de vídeo, especialmente destacando-se com vantagens significativas em baixas taxas de retenção de tokens.