L'équipe de recherche de l'université Carnegie Mellon a publié un projet innovant d'intelligence artificielle appelé LegoGPT. Ce modèle peut générer automatiquement des conceptions de briques Lego à partir de textes en langue naturelle. Le projet est disponible en open source sur GitHub, où les utilisateurs peuvent télécharger le modèle et les jeux de données pour essayer et étendre ses fonctionnalités.
LegoGPT est alimenté par un grand modèle de langage pré-entraîné autoregressif, entraîné sur plus de 47 000 blocs Lego formant plus de 28 000 objets 3D uniques. L'utilisateur n'a qu'à saisir une description telle que « une guitare » et le modèle génère alors une conception stable et facile à assembler.
Ses principales caractéristiques incluent un mécanisme de « vérification de validité » et un « rebobinage physique » qui assurent que la disposition des briques ne se chevauche pas ou ne flotte pas. Il peut également créer des schémas de construction structurés avec des annotations textuelles, pouvant être suivis aussi bien par des humains que par des robots.
L'équipe de recherche a également créé un jeu de données d'entraînement appelé StableText2Lego. Cela utilise des maillages ShapeNetCore et des layouts de voxel pour générer des formes initiales, qui sont ensuite triées et optimisées pour former les échantillons d'entraînement finaux. À l'avenir, cette technologie pourrait être développée en un processus complet de transformation d'image en conception Lego, permettant aux utilisateurs de convertir leurs photos en conceptions créatives.