Récemment, une équipe de recherche de l'Université des sciences et technologies de Chine a lancé un outil d'édition vidéo innovant appelé PortraitGen. Il suffit de fournir une vidéo pour modifier le visage : modification textuelle, modification à partir d'une image de référence, changement de vêtements, modification des effets d'éclairage, etc., le tout grâce à une édition multimodale des portraits.

image.png

Plus excitant encore, tout cela ne prend que 30 minutes, et la vidéo éditée peut être lue en douceur à 100 images par seconde !

La clé de cette technologie réside dans le suivi des coefficients SMPL-X. L'équipe de recherche effectue d'abord un suivi vidéo monoculaire, puis construit un champ de caractéristiques gaussien 3D grâce à un mécanisme appelé texture gaussienne neuronale.

Grâce à la mise à jour itérative des données, les utilisateurs peuvent réaliser une édition de portrait diversifiée. Il est particulièrement important de noter que l'équipe a également proposé un module d'« édition consciente du visage » visant à améliorer la qualité des expressions et à préserver la structure faciale personnalisée, pour un résultat naturel et précis.

Modification textuelle des effets sur le portrait

PortraitGen offre des fonctionnalités d'édition très puissantes, permettant aux utilisateurs des éditions pilotées par le texte et par l'image.

Par exemple, l'édition pilotée par le texte utilise un modèle d'édition 2D appelé InstructPix2Pix. L'utilisateur n'a qu'à fournir une image RVB, une instruction textuelle et une image latente bruitée, et le système effectue des ajustements précis en fonction de ces informations.

Édition stylistique

Pour l'édition pilotée par l'image, l'équipe a utilisé des techniques de transfert de style et d'essayage virtuel pour répondre aux différents besoins, permettant aux utilisateurs de transférer facilement le style dans les images vidéo, voire de changer de vêtements.

Modification de l'éclairage

Plus intéressant encore, PortraitGen peut ajuster l'éclairage des images vidéo en fonction de la description de l'éclairage fournie par l'utilisateur, pour une vidéo plus harmonieuse et esthétique.

Comparé à d'autres outils d'édition vidéo haut de gamme, PortraitGen se distingue par sa supériorité en termes de préservation des invites, de préservation de l'identité et de cohérence temporelle.

Sur le plan technique, la technique de texture gaussienne neuronale introduite par PortraitGen, contrairement aux méthodes précédentes basées sur les coefficients harmoniques sphériques, stocke des caractéristiques apprenantes pour chaque point gaussien, ce qui permet des résultats d'édition plus riches et prend en charge des styles plus complexes.

image.png

De plus, grâce à des fonctionnalités d'édition améliorées par la reconnaissance faciale et une expression optimisée pour la cohérence des expressions, PortraitGen démontre son fort potentiel dans le domaine de l'édition précise de portraits.

image.png

Accès au projet : https://top.aibase.com/tool/portraitgen

Points clés :

✨ PortraitGen ne prend que 30 minutes pour éditer une vidéo de portrait 2D en champ gaussien 4D, avec une lecture fluide à 100 images par seconde.

🎨 Il offre plusieurs modes d'édition, pilotés par le texte et par l'image, pour une plus grande flexibilité et diversité dans la transformation du style vidéo.

💡 Grâce au module d'édition consciente du visage, il améliore la qualité des expressions tout en préservant les caractéristiques faciales personnalisées de l'utilisateur.