Vidu é o primeiro modelo de vídeo grande e longo, de alta consistência e alta dinâmica da China, lançado pela Shengshu Technology em conjunto com a Universidade Tsinghua. O modelo utiliza a arquitetura U-ViT, uma fusão original de Diffusion e Transformer, e suporta a geração com um único clique de conteúdo de vídeo em alta definição com até 16 segundos de duração e resolução de até 1080P. O Vidu não apenas consegue simular o mundo físico real, mas também possui uma rica imaginação, com características como geração de múltiplas câmeras e consistência espaço-temporal. Sua rápida inovação se origina do acúmulo de longo prazo da equipe em aprendizado de máquina bayesiana e modelos grandes multimodais, além de várias conquistas originais. O lançamento do Vidu representa a capacidade contínua de inovação e a liderança da Shengshu Technology na área de modelos grandes multimodais nativos. Olhando para o futuro, a arquitetura flexível poderá ser compatível com modalidades mais amplas, expandindo ainda mais os limites da capacidade universal multimodal.