Dieses Produkt basiert auf einem Diffusionsmodell und dient zur Generierung von animierten Personenbewegungssequenzen aus einem einzigen Bild, wobei ein bestimmtes 3D-Bewegungsziel vorgegeben wird. Kernkomponenten sind das Erlernen von Vorwissen über unsichtbare Körper- und Kleidungsteile sowie das Rendern neuer Körperhaltungen mit passender Kleidung und Texturen. Wir trainieren das Modell im Textur-Kartenraum, um es gegen Änderungen von Pose und Perspektive invariant zu machen und somit effizienter zu gestalten. Zusätzlich entwickelten wir eine diffusionsbasierte Renderpipeline mit 3D-Körpersteuerungsfähigkeit, die realistische Personenbilder erzeugt. Unsere Methode kann Bildsequenzen generieren, die den 3D-Haltungszielen entsprechen und visuell dem Eingabebild ähneln. Die 3D-Steuerung ermöglicht zudem die Erzeugung verschiedener synthetischer Kameratrajektorien zur Personenrendierung. Experimente zeigen, dass unsere Methode im Vergleich zu früheren Ansätzen Bildsequenzen mit kontinuierlicher Bewegung und komplexen Haltungen erzeugen kann.