CogVideoX-2B es un modelo de generación de video de código abierto desarrollado por un equipo de la Universidad Tsinghua. Permite generar videos usando indicaciones en inglés, requiere 36 GB de memoria GPU para la inferencia y puede generar videos de 6 segundos de duración, a 8 fps y con una resolución de 720x480. El modelo utiliza incrustaciones posicionales sinusoidales, actualmente no admite inferencia cuantificada ni inferencia multicarta. Se implementa con la biblioteca diffusers de Hugging Face y puede generar videos a partir de indicaciones de texto, ofreciendo un alto grado de creatividad y potencial de aplicación.