CogVideoX é um modelo de código aberto para geração de vídeo, desenvolvido pela equipe da Universidade Tsinghua, que permite a geração de vídeos a partir de descrições de texto. Ele oferece diversos modelos de geração de vídeo, incluindo modelos básicos e modelos de grande porte, para atender às diferentes necessidades de qualidade e custo. O modelo suporta várias precisões, incluindo FP16 e BF16; recomenda-se usar a mesma precisão usada durante o treinamento do modelo para inferência. O modelo CogVideoX-5B é especialmente adequado para cenários que exigem a geração de conteúdo de vídeo de alta qualidade, como produção cinematográfica, desenvolvimento de jogos e criação de anúncios.