OmniHuman-1 é uma estrutura de geração de vídeo humano condicional multimodal de ponta a ponta, capaz de gerar vídeos humanos com base em uma única imagem de rosto e sinais de movimento (como áudio, vídeo ou uma combinação de ambos). A tecnologia supera o problema da escassez de dados de alta qualidade por meio de uma estratégia de treinamento híbrida, suporta entrada de imagens com proporções de aspecto arbitrárias e gera vídeos humanos realistas. Apresenta desempenho excelente com entradas de sinais fracos (especialmente áudio) e é adequado para diversas cenas, como apresentadores virtuais e produção de vídeos.