Des chercheurs de l'Université Fudan et de Baidu ont collaboré pour développer Hallo2, un nouveau modèle d'IA capable de générer des animations de personnages en 4K d'une durée de plusieurs heures, contrôlables avec précision par la voix et des instructions textuelles.

image.png

Jusqu'à présent, la création d'animations de personnages de haute qualité nécessitait beaucoup de temps et de ressources humaines. Hallo2 pourrait révolutionner cette situation et transformer les domaines de la production cinématographique, des assistants virtuels et du développement de jeux vidéo.

Le modèle Hallo2 repose sur les modèles de diffusion latente et intègre plusieurs innovations techniques :

Technique d'augmentation de données Patch-drop : en occultant aléatoirement des images de mouvement, on empêche le modèle de trop dépendre des images précédentes, garantissant ainsi une apparence stable de l'animation sur de longues séquences.

Technique d'augmentation du bruit gaussien : l'ajout de bruit gaussien aux images de mouvement améliore la robustesse du modèle au bruit et aux distorsions de mouvement, améliorant ainsi la qualité et la cohérence de l'animation.

Technique de prédiction de codebook discret VQGAN : extension du modèle VQGAN à la dimension temporelle, combinée à une technique d'alignement temporel, permettant la génération de vidéos haute résolution et garantissant la cohérence des détails visuels dans le temps.

Mécanisme de contrôle par instructions textuelles : l'introduction d'un mécanisme de normalisation adaptative par couche permet au modèle de contrôler précisément les expressions et les mouvements des personnages en fonction des instructions textuelles, rendant l'animation plus expressive et contrôlable.

QQ20241018-111835.jpg

Les performances exceptionnelles du modèle Hallo2 ont été validées sur plusieurs ensembles de données publiques, notamment HDTF, CelebV et un ensemble de données « Wild » créé par les chercheurs. Les résultats expérimentaux montrent que Hallo2 surpasse toutes les méthodes existantes en matière de génération d'animations de personnages de haute qualité et de longues séquences.

La publication du modèle Hallo2 marque une nouvelle étape dans la technologie de génération d'animations de personnages par IA. À l'avenir, les chercheurs prévoient d'optimiser davantage l'efficacité et la contrôlabilité du modèle et d'explorer ses applications dans d'autres domaines.

Adresse du projet : https://fudan-generative-vision.github.io/hallo2/#/

Adresse de l'article : https://arxiv.org/pdf/2410.07718