ConsiStory ist eine Methode zur Erzeugung konsistenter Motive in vorab trainierten Text-zu-Bild-Modellen ohne zusätzliches Training. Es erfordert weder Feinabstimmung noch Personalisierung und ist daher um das 20-fache schneller als bisherige Top-Methoden. Wir verbessern das Modell durch die Einführung eines motivgesteuerten, geteilten Aufmerksamkeitsmoduls und einer korrespondenzbasierten Merkmalseinspritzung, um die Motivkonsistenz zwischen den Bildern zu fördern. Zusätzlich haben wir Strategien entwickelt, die die Layoutvielfalt bei gleichzeitiger Beibehaltung der Motivkonsistenz fördern. ConsiStory lässt sich nahtlos auf Szenen mit mehreren Motiven erweitern und ermöglicht sogar eine trainingfreie Personalisierung gängiger Objekte.