Loopy est un modèle de diffusion vidéo piloté par l'audio, de bout en bout. Il intègre des modules temporels spécifiques pour les transitions entre clips et au sein d'un même clip, ainsi qu'un module audio vers représentation latente. Cela permet au modèle d'exploiter les informations de mouvement à long terme contenues dans les données pour apprendre des schémas de mouvement naturels et améliorer la corrélation entre l'audio et les mouvements du portrait. Cette méthode élimine le besoin de modèles de mouvement spatial définis manuellement, présents dans les méthodes existantes, et permet d'obtenir des résultats plus réalistes et de haute qualité dans divers contextes.