Récemment, une technologie de pointe a complètement bouleversé notre compréhension de la construction du monde en 3D ! Une équipe de chercheurs de l'Université de Princeton, de l'Université Columbia et d'une entreprise appelée Cyberever AI a collaboré pour présenter un cadre appelé 3DTown. Dès le nom, on peut comprendre qu'il s'agit de vous aider à créer des villes en 3D ! Mais le plus impressionnant, c'est ce que cela peut faire ? Il peut simplement générer une scène de ville en 3D réaliste et cohérente à partir d'une seule vue aérienne ! Et ce qui est encore plus incroyable, c'est qu'il s'agit d'un cadre sans entraînement (training-free), ce qui signifie que vous n'avez pas besoin de collecter une grande quantité de données 3D pour l'entraîner, il suffit de l'utiliser directement !

image.png

Adresse du document : https://arxiv.org/pdf/2505.15765

Adresse du projet : https://eric-ai-lab.github.io/3dtown.github.io/

Modélisation 3D traditionnelle ? C'était le jeu de "l'argent brûlé" pour les grandes entreprises et les grandes équipes !

Pensez-vous que créer une scène 3D de haute qualité, c'est le domaine des grandes entreprises et des grandes équipes ? C'est vrai, en fait :

Les équipements sont très chers : des scanners 3D coûtant des dizaines ou même des centaines de milliers de dollars, qui ne sont pas accessibles au commun des mortels.

Les données sont énormes : il faut collecter des données sous plusieurs angles pour éviter des "zones aveugles" dans le modèle.

La modélisation manuelle est épuisante : chronophage et laborieux, un détail peut rendre un modéliste chauve.

Ainsi, la plupart des gens ne peuvent que regarder la modélisation 3D avec admiration. Bien que l'IA ait fait des progrès significatifs dans la génération d'objets 3D ces dernières années, étendre cela à la génération de scènes complexes reste une tâche ardue, souvent marquée par des "accidents" de diverses sortes :

Incohérence géométrique : les bâtiments générés sont déformés et ne ressemblent pas à un tout cohérent.

Disposition inventée : complètement hors sujet par rapport à l'image donnée, l'imagination est trop riche.

Qualité médiocre des maillages : les détails du modèle sont grossiers, et les textures collées sont difficiles à apprécier.

image.png

3DTown : Le magicien de "une image, une ville" !

Maintenant, 3DTown est là pour résoudre ces problèmes ! Son concept central est de vous permettre de générer la meilleure scène 3D possible avec une entrée minimale (une simple vue aérienne). Imaginez que vous trouviez une vue aérienne d'un village enneigé sur Internet ou dessinez rapidement un croquis d'un village hollandais, et le donnez à 3DTown, il pourra vous transformer cela en modèles 3D réalistes !

Alors, comment y arrive-t-il ? La réponse réside dans ses deux "technologies noires" :

Génération de zones : Diviser pour mieux régner !

Vous êtes-vous déjà demandé pourquoi un paysage 3D complexe est si difficile à générer directement par l'IA ? 3DTown est intelligent, il adopte une stratégie de "division pour mieux régner".

Il décompose la vue aérienne donnée en régions chevauchantes, puis génère indépendamment chaque région en 3D.

Cela ressemble à décomposer une grande mosaïque en petites pièces, puis laisser l'IA se concentrer sur chaque petite pièce. Les avantages sont évidents :

Amélioration de la résolution et des détails : chaque région étant indépendante, l'IA peut se concentrer sur la génération de structures géométriques et de textures de haute résolution, offrant plus de détails.

Amélioration de l'alignement entre l'image et la 3D : comme elle génère pour des régions locales, l'IA a une compréhension plus précise des détails de l'image, ce qui génère des modèles 3D plus fidèles à l'image.

Réparation 3D basée sur l'espace : Laisser "s'ajuster" parfaitement !

Si diviser est bien, cela crée aussi de nouveaux défis : comment garantir une connexion fluide entre les zones générées indépendamment ?

C'est là que se situe la deuxième "technologie noire" de 3DTown — la réparation 3D basée sur l'espace (spatial-aware 3D inpainting) !

Elle commence par estimer une structure 3D approximative à partir de l'image donnée, ce qui est comme donner à l'IA un "schéma provisoire", lui montrant où sont les bâtiments et où sont les routes.

Ensuite, elle utilise un flux corrigé masqué (masked rectified flow) pour remplir les structures géométriques manquantes tout en maintenant la continuité globale.

Imaginez un professionnel de la maçonnerie 3D, après avoir assemblé chaque "pièce" par l'IA, il peut automatiquement combler les interstices entre elles sans laisser de traces, tout en conservant l'intégrité globale de la structure !

Sans entraînement, des résultats écrasants face aux concurrents !

Le plus impressionnant, c'est que 3DTown est un cadre **sans entraînement** !

Il exploite directement des générateurs 3D pré-entraînés (comme Trellis), combinés avec sa propre stratégie de génération de zones et de réparation spatiale, pour synthétiser des scènes 3D complexes.

C'est comme un chef de cuisine de premier ordre, il n'a pas besoin de cultiver ses propres légumes ou d'élever ses porcs, mais achète directement les meilleurs ingrédients sur le marché, puis utilise son talent culinaire pour créer des plats de classe mondiale !

Les résultats des expériences montrent également la puissance de 3DTown, surpassant largement les meilleurs modèles actuels de génération Image-to-3D sur plusieurs indicateurs :

Qualité géométrique : les scores humains et ceux évalués par GPT-4o montrent que les modèles 3D générés par 3DTown sont plus précis et plus réalistes que jamais !

Sa qualité géométrique dépasse Trellis de 37 points et TripoSG de 55 points !

Continuité de la disposition : la disposition générée correspond parfaitement à l'image donnée, sans phénomène de "dérive".

Le score de préférence humaine de 3DTown dépasse Trellis de 40 points, atteignant 87,9 % dans l'évaluation de GPT-4o, tandis que Hunyuan3D-2 n'est que de 12,1 % !

Fidélité des textures : les textures des modèles sont convaincantes et cohérentes, comme dans le monde réel.

Que ce soit un village enneigé, un village désertique ou un village au style hollandais, 3DTown peut gérer parfaitement, générant des scènes 3D complexes et réalistes ! D'autres modèles présentent souvent des défauts comme une simplification excessive de la structure, une disposition déformée ou des objets redondants.

Le "secret du succès" de 3DTown : l'art de la décomposition et de la couture !

Cette technologie prouve une fois de plus l'importance des stratégies de "décomposition spatiale" et de "réparation guidée par priorités" dans la transformation d'une image 2D en une scène 3D de haute qualité.

La décomposition en zones permet à l'IA d'utiliser efficacement ses compétences pré-entraînées dans chaque région locale, évitant ainsi la difficulté de traiter des scènes complexes entières.

La guidance des repères agit comme un "point fixe" pour l'IA, assurant la continuité de la structure globale et des objets clés, empêchant toute "dérive".

Cette technologie a un immense potentiel dans des domaines comme le développement de jeux vidéo, la production cinématographique, la construction d'univers virtuels et même l'entraînement de robots ! Imaginez que dans l'avenir, nous puissions générer rapidement un monde 3D explorable à partir d'un simple croquis, quel bond en avant cela représenterait !

Dernière remarque et perspectives futures

Naturellement, aucune nouvelle technologie n'est parfaite. 3DTown présente actuellement quelques limites, telles que :

Les générateurs 3D pré-entraînés sur lesquels il repose sont basés sur des objets individuels, ce qui peut entraîner certaines "hallucinations", comme des façades répétées ou des formes de toits irréalistes lors de la génération dans certaines zones.

L'estimation initiale de la structure 3D peut parfois être inexacte, entraînant des surfaces creuses ou trop lisses dans les modèles générés.

Ces limitations peuvent être optimisées dans le futur, par exemple en combinant des données multi-angles, en introduisant des priorités sémantiques ou en effectuant des ajustements de scène.

L'apparition de 3DTown est sans aucun doute un jalon dans le domaine de la génération de contenu 3D ! De manière ingénieuse, efficace et sans entraînement, il ouvre la porte à la construction rapide de scènes complexes à partir de 2D vers 3D. Dans le futur, peut-être que chacun de nous pourra devenir un "créateur de monde 3D", transformant simplement une image en notre "ville idéale" !