ACE ist ein auf Diffusions-Transformationen basierender Allrounder-Creator und -Editor. Er ermöglicht durch die Eingabe eines einheitlichen Long-context Condition Unit (LCU)-Formats das gemeinsame Training verschiedener visueller Generierungsaufgaben. ACE löst das Problem des Mangels an Trainingsdaten durch eine effiziente Datenakquisitionsmethode und generiert präzise Textanweisungen mithilfe eines multimodalen, großen Sprachmodells. ACE weist im Bereich der visuellen Generierung eine deutlich überlegene Leistung auf. Es lässt sich mühelos ein Chat-System erstellen, das auf alle Bilderstellungsanfragen reagiert, wodurch umständliche Prozesse, die üblicherweise bei visuellen Agenten vorkommen, vermieden werden.