阿里巴巴与南开大学联合推出LLaVA-Scissor视频大模型压缩技术,采用基于图论的SCC算法,通过两步时空压缩策略(空间压缩识别语义区域+时间压缩去除跨帧冗余),显著降低token数量。实验显示,在50% token保留率下性能与原始模型相当,35%保留率时EgoSchema准确率达57.94%,有效解决了视频处理中的token激增和语义保留难题。(139字)
Huawei
-
Input tokens/M
Output tokens/M
32
Context Length
Chatglm
128
Minimax
$100