Récemment, des chercheurs de l'Université Stanford et du MIT ont collaboré pour développer WonderWorld, un système d'IA capable de générer des scènes 3D en temps réel à partir d'une seule image. Cette nouvelle technologie permet aux utilisateurs de construire et d'explorer progressivement des environnements virtuels, contrôlant facilement le contenu et la disposition des scènes générées.
Le plus grand défi de WonderWorld était la rapidité de génération de scènes 3D. Les méthodes précédentes nécessitaient généralement de quelques minutes à quelques heures pour générer une scène, tandis que WonderWorld peut générer un nouvel environnement 3D en seulement 10 secondes sur un GPU Nvidia A6000. Cette vitesse rend l'interaction en temps réel possible, marquant une avancée majeure dans le domaine.
WonderWorld fonctionne en générant une scène 3D préliminaire à partir de l'image d'entrée. Ensuite, le système entre dans une boucle, alternant entre la génération d'images de scène et la représentation correspondante des FLAGS. Les utilisateurs peuvent contrôler la génération de nouvelles scènes en déplaçant la caméra et utiliser une entrée textuelle pour spécifier le type de scène souhaité.
Il est important de noter que la représentation FLAGS est composée de trois niveaux : premier plan, arrière-plan et ciel. Chaque niveau contient un ensemble d'éléments appelés « surfels », qui sont définis par leur position 3D, leur orientation, leur échelle, leur transparence et leur couleur. Ces surfels sont initialisés en estimant la profondeur et la carte normale, puis optimisés pour créer la scène finale.
Pour réduire les distorsions géométriques lors des transitions de scène, WonderWorld utilise un processus de diffusion de profondeur guidée. Cette méthode utilise un modèle de diffusion de carte de profondeur pré-entraîné pour ajuster l'estimation de profondeur afin qu'elle corresponde à la géométrie des parties existantes de la scène.
Les expériences montrent que WonderWorld surpasse nettement les méthodes précédentes de génération de scènes 3D en termes de vitesse et de qualité visuelle. Dans les études menées auprès des utilisateurs, les scènes générées ont été jugées plus visuellement convaincantes que celles générées par d'autres méthodes.
Bien que WonderWorld soit nettement supérieur aux méthodes précédentes en termes de vitesse et de qualité visuelle, il présente encore certaines limitations. Par exemple, il ne peut créer que des surfaces avant, limitant l'angle de mouvement de l'utilisateur dans le monde virtuel à environ 45 degrés. De plus, les mondes générés ressemblent actuellement à des silhouettes de papier, et des éléments « trous » ou « flottants » peuvent apparaître lors du traitement d'objets détaillés tels que les arbres.
Malgré ces limitations, les chercheurs restent confiants dans le potentiel de WonderWorld, notamment dans le développement de jeux, la réalité virtuelle et la création de mondes virtuels dynamiques. Les utilisateurs ont évalué les scènes générées comme étant plus visuellement convaincantes dans les études, ce qui montre le large éventail d'applications possibles de cette technologie.
Accès au projet : https://kovenyu.com/wonderworld/
Points clés :
🌟 L'IA WonderWorld peut générer des scènes 3D en temps réel à partir d'une seule photo, en seulement 10 secondes.
🎮 Le système permet aux utilisateurs de contrôler le contenu et la disposition des scènes, ce qui le rend adapté au développement de jeux et aux applications de réalité virtuelle.
🚧 La technologie actuelle présente certaines limitations, principalement la génération de surfaces avant uniquement et un manque de détails dans le traitement.