Video-CCAM es una serie de modelos de video multilingües flexibles (Video-MLLM) desarrollados por el equipo de investigación multimedia de Tencent QQ, dedicados a mejorar la capacidad de comprensión de video-lenguaje, especialmente adecuados para el análisis de videos cortos y largos. Logra esto mediante máscaras de atención cruzada causal (Causal Cross-Attention Masks). Video-CCAM ha demostrado un rendimiento superior en varias pruebas de referencia, especialmente en MVBench, VideoVista y MLVU. El código fuente del modelo se ha reescrito para simplificar el proceso de implementación.