阿里巴巴与南开大学联合推出LLaVA-Scissor视频大模型压缩技术,采用基于图论的SCC算法,通过两步时空压缩策略(空间压缩识别语义区域+时间压缩去除跨帧冗余),显著降低token数量。实验显示,在50% token保留率下性能与原始模型相当,35%保留率时EgoSchema准确率达57.94%,有效解决了视频处理中的token激增和语义保留难题。(139字)
Huawei
-
输入tokens/百万
输出tokens/百万
32
上下文长度
Chatglm
128
Minimax
$100