Googles neu entwickeltes Bildgenerierungsmodell Instruct-Imagen zeigt durch multimodalen Anweisungen eine herausragende Generierungsfähigkeit. Experimente belegen, dass das Modell in der Domäne und bei Zero-Shot-Bewertungen mit früheren Methoden mithalten kann und diese sogar übertrifft. Es zeichnet sich durch die Verarbeitung komplexer Anweisungen und eine starke Generalisierungsfähigkeit aus. Diese Technologie verbessert nicht nur die Bildqualität, sondern erzielt auch bemerkenswerte Ergebnisse in Bezug auf die Text-Bild-Ausrichtung.