La technologie Edify3D, récemment lancée par NVIDIA, marque une avancée majeure dans la génération d'actifs 3D. Cette innovation permet de générer, en seulement deux minutes, des modèles 3D de haute qualité à partir d'une description textuelle ou d'une image de référence. Ces modèles incluent des UV complètes, des textures 4K et des matériaux PBR, révolutionnant ainsi la conception de jeux, la production cinématographique et la réalité étendue.

Edify3D utilise une architecture technique unique, combinant un modèle de diffusion multi-vues avec une technique de reconstruction basée sur les Transformers. Son pipeline principal comprend trois étapes clés :

Un modèle de diffusion multi-vues génère des images RGB sous plusieurs angles à partir de l'entrée ;

Un ControlNet multi-vues synthétise les normales de surface correspondantes ;

Un modèle de reconstruction intègre ces informations en une représentation 3D neuronale, générant la géométrie finale via l'extraction d'isosurfaces et le post-traitement du maillage.

En pratique, Edify3D affiche des performances exceptionnelles. Il génère non seulement des modèles 3D avec une structure de maillage précise, mais garantit également une haute résolution des textures et l'intégrité des maps de matériaux. Le système prend en charge la génération d'actifs 3D diversifiés, allant des sacs à dos aux bras robotiques en passant par les gramophones. Les modèles générés possèdent une topologie de maillage quadrilatérale adaptative, facilitant l'édition et le rendu ultérieurs.

Il est particulièrement remarquable qu'Edify3D puisse également générer des scènes 3D complexes. En combinaison avec un grand modèle linguistique (LLM), le système peut définir la disposition de la scène, la position et la taille des objets à partir d'une invite textuelle, créant ainsi des combinaisons de scènes 3D cohérentes et réalistes. Cette fonctionnalité offre un puissant support pour la conception artistique, la modélisation 3D et la simulation par IA.

En termes d'extensibilité technique, Edify3D se distingue. L'augmentation du nombre de vues d'entraînement améliore continuellement la qualité et la cohérence des images générées. Les performances du modèle de reconstruction s'améliorent également avec l'augmentation du nombre de vues d'entrée, tout en permettant d'ajuster la taille des jetons à trois plans en fonction des ressources de calcul.

Le lancement de cette technologie marque une nouvelle ère pour la création de contenu 3D, offrant aux secteurs concernés des gains d'efficacité et des possibilités de création sans précédent.

Plus d'informations : https://research.nvidia.com/labs/dir/edify-3d/