GenWarp ist ein Modell zur Generierung von Bildern aus neuen Perspektiven aus einer einzigen Aufnahme. Es nutzt einen semantisch erhaltenden Deformationsrahmen, der es Text-zu-Bild-Generierungsmodellen ermöglicht zu lernen, wo verformt und wo generiert werden soll. Das Modell behebt die Einschränkungen bestehender Methoden durch die Verstärkung der Kreuzperspektiven-Aufmerksamkeit und der Selbstaufmerksamkeit. Durch die konditionierte Generierung auf dem Quellbild und die Einbeziehung von geometrischen Deformationssignalen wird die Leistung in verschiedenen Szenarien verbessert.