A estrutura EMO da Alibaba aprimora o realismo, a naturalidade e a expressividade da geração de vídeos de cabeça, focando na conexão entre prompts de áudio e movimentos faciais. O EMO suporta a geração de áudio de músicas e fala em diferentes idiomas, permitindo que avatares de personagens apresentem expressões e dinâmicas ricas. Além disso, o EMO também pode realizar a interação entre diferentes personagens, trazendo mais possibilidades para a geração de vídeo.