MagicTime ist ein Modell, das auf Basis von Textbeschreibungen qualitativ hochwertige, sich verändernde Videos generiert. Durch das Erlernen physikalischer Kenntnisse aus Zeitraffer-Videos ermöglicht es eine hochrealistische Simulation von Veränderungsprozessen. Das Modell umfasst drei Hauptkomponenten: MagicAdapter, Dynamic Frames Extraction und Magic Text-Encoder. Diese ermöglichen ein effizientes Verständnis des Veränderungsprozesses aus dem Text und die Generierung des entsprechenden Videos. Zusätzlich hat das Projektteam den speziellen Zeitraffer-Videosatz ChronoMagic entwickelt, um die Generierung von sich verändernden Videos zu unterstützen. Die Ergebnisse umfassender Experimente zeigen, dass MagicTime bei der Generierung dynamisch realistischer, sich verändernder Videos hervorragende Leistungen erbringt und neue Wege für die Entwicklung eines Simulators für Veränderungen in der physischen Welt eröffnet.