Forscher von ByteDance haben kürzlich eine neue Technologie namens MVDream vorgestellt, die es ermöglicht, hochwertige 3D-Bilder allein anhand von Textbeschreibungen zu generieren. Die Innovation von MVDream liegt in der Fähigkeit, kohärente und konsistente 3D-Bilder zu erzeugen, anstatt lediglich aus verschiedenen Blickwinkeln zusammengesetzte 2D-Bilder.
Dies ist hauptsächlich auf die Trainingsmethode von MVDream zurückzuführen: Das Modell wird mit Bildern desselben 3D-Objekts aus verschiedenen Perspektiven trainiert, wodurch es lernt, die 3D-Form des Objekts zu generieren. In Tests übertraf die von MVDream generierte 3D-Bildqualität deutlich die anderer vergleichbarer Technologien und vermeidet weitgehend die üblichen Probleme bei der 3D-Generierung.
Derzeit ist die Auflösung der von MVDream generierten Bilder jedoch mit 256x256 Pixeln noch relativ niedrig. ByteDance geht davon aus, dass die Qualität und die Generalisierungsfähigkeit durch die Verwendung größerer Modelle in Zukunft verbessert werden können.