MoMask es un modelo para la generación de movimiento corporal 3D impulsado por texto. Emplea un esquema de cuantificación jerárquica para representar el movimiento corporal con detalles de alta fidelidad como múltiples tokens de movimiento discretos en varias capas. MoMask genera estos tokens a partir de la entrada de texto mediante dos redes Transformer bidireccionales diferentes. El modelo supera a los métodos existentes en tareas de generación de movimiento a partir de texto y se puede aplicar sin problemas a tareas relacionadas, como la reparación temporal guiada por texto.