ELLA (Efficient Large Language Model Adapter) ist eine leichtgewichtige Methode, um bestehende, auf CLIP basierende Diffusionsmodelle mit leistungsstarken LLMs auszustatten. ELLA verbessert die Prompt-Following-Fähigkeit des Modells und ermöglicht es Text-zu-Bild-Modellen, lange Texte zu verstehen. Wir haben einen zeitbewussten semantischen Konnektor entwickelt, der zeitabhängige Konditionierungen für verschiedene Rauschentfernungsstufen aus vorab trainierten LLMs extrahiert. Unser TSC passt die semantischen Merkmale dynamisch an verschiedene Sampling-Zeitschritte an und unterstützt die Einfrierung des U-Net auf verschiedenen semantischen Ebenen. ELLA zeigt in Benchmarks wie DPG-Bench eine überlegene Leistung, insbesondere bei komplexen Prompts mit mehreren Objekten, verschiedenen Attributen und Beziehungen.