Am 26. April 2025 berichtete AIbase: OpenAI hat kürzlich die offizielle Integration der Bildgenerierungsfunktion seines Flaggschiff-Multimodal-Modells GPT-4o in die ChatGPT-Funktion für benutzerdefinierte GPTs angekündigt. Dieses Update ermöglicht es Nutzern, mit ihren maßgeschneiderten KI-Assistenten direkt Bilder zu generieren und zu bearbeiten, was neue Möglichkeiten in den Bereichen Content Creation, Design und Bildung eröffnet.
Nahtlose Integration der Bildgenerierung
Die Bildgenerierungsfunktion von GPT-4o wurde bereits ab dem 25. März 2025 schrittweise für kostenlose, Plus-, Pro- und Team-Nutzer von ChatGPT und Sora freigeschaltet. Im Gegensatz zu früheren Methoden, die auf externe Modelle wie DALL-E3 angewiesen waren, ist die Bildgenerierung bei GPT-4o in das Modell selbst integriert und ermöglicht die direkte Erstellung hochwertiger Bilder anhand von Textbeschreibungen. Diese Funktion wurde nun auf benutzerdefinierte GPTs erweitert. Nutzer können über den ChatGPT-Editor für benutzerdefinierte GPTs die Option „GPT-4o Image Generation“ aktivieren und so einen eigenen KI-Assistenten mit Bildgenerierungsfunktionen erstellen. Dieses Update ersetzt das bisherige DALL-E3-Backend und verbessert deutlich die Geschwindigkeit und Qualität der Bildgenerierung.
Highlights und Anwendungsbereiche
Die GPT-4o-Bildgenerierung in benutzerdefinierten GPTs zeigt eine hohe Flexibilität und Praktikabilität. Benutzer können mit natürlichen Sprachbefehlen fotorealistische Bilder, stilisierte Illustrationen oder komplexe Design-Assets erstellen. Hier sind die wichtigsten Vorteile:
Präzise Textwiedergabe: GPT-4o kann klar lesbaren Text präzise in Bilder einfügen, ideal für Diagramme, Menüs, Einladungen oder Infografiken.
Optimierte mehrstufige Interaktion: Benutzer können die Bilddetails schrittweise im Dialog anpassen. Das Modell behält dabei die Konsistenz des Kontextes bei, was sich für Szenarien wie Charakterdesign, Markenentwicklung oder Storyboard-Erstellung eignet, die mehrere Iterationen erfordern.
Ausführung komplexer Anweisungen: Das Modell verarbeitet detaillierte Anweisungen mit 10 bis 20 Objekten und stellt sicher, dass die Beziehungen und Merkmale der Objekte korrekt dargestellt werden.
Vielfältige Stilanpassung: Von realistisch bis cartoonartig, von handgezeichnet bis hochauflösend – GPT-4o generiert Bilder in verschiedenen Stilen, um unterschiedliche kreative Anforderungen zu erfüllen.
Beispielsweise kann ein benutzerdefinierter GPT im Modebereich Skizzen von Kleidungsdesigns erstellen, ein GPT im Bildungsbereich anschauliche Lehrdiagramme und ein GPT im Marketingbereich schnell Social-Media-Werbematerialien generieren. Diese Funktionen ermöglichen Nutzern die Erstellung hochwertiger visueller Inhalte ohne professionelle Designkenntnisse.
Nutzung und Einschränkungen
Um die Bildgenerierungsfunktion von GPT-4o zu nutzen, müssen Benutzer die entsprechende Option im ChatGPT-Editor für benutzerdefinierte GPTs aktivieren und die gewünschte Bildbeschreibung als Text eingeben. Details wie Farbcodes, Seitenverhältnisse oder transparente Hintergründe können ebenfalls angegeben werden. Die Generierung kann je nach Komplexität der Anfrage einige Sekunden bis zu einer Minute dauern. Trotz der Leistungsfähigkeit gibt es derzeit noch einige Einschränkungen. Beispielsweise berichten einige Benutzer, dass die Stabilität der Bildgenerierung bei der Befolgung von Anweisungen für benutzerdefinierte GPTs bei etwa 50 % liegt, was darauf hinweist, dass sich die Funktion noch in der Entwicklung befindet. Außerdem können bei großen Bildern wie Postern Beschneidungsprobleme auftreten, die noch behoben werden müssen. OpenAI plant, die Stabilität und Leistung der Funktion durch kontinuierliche Updates zu verbessern.
Breiter Zugriff und Sicherheit
Derzeit ist die Bildgenerierungsfunktion von GPT-4o für alle ChatGPT-Abonnementstufen verfügbar, einschließlich der kostenlosen Nutzung (täglich begrenzt auf 3 Versuche). Unternehmen, Bildungseinrichtungen und API-Entwickler erhalten voraussichtlich in den nächsten Wochen Zugriff. Um die Sicherheit der Inhalte zu gewährleisten, sind alle generierten Bilder mit C2PA-Metadaten zur Quellenangabe versehen. OpenAI setzt außerdem interne Suchwerkzeuge und Überwachungssysteme ein, um die Generierung von Inhalten mit realen Personen, Nacktheit oder Gewalt strikt zu beschränken.
Tiefe Auswirkungen auf Entwickler
Für Entwickler wird die bevorstehende Einführung der GPT-4o-Bildgenerierungs-API die Integration in Anwendungen weiter vorantreiben. Im Vergleich zu herkömmlichen Bildgenerierungsmodellen reduziert die multimodale Architektur von GPT-4o den Aufwand für den Wechsel zwischen Modellen und bietet ein flüssigeres Entwicklungserlebnis. Dieses Update deutet auch darauf hin, dass OpenAI daran arbeitet, einen einheitlichen multimodalen Technologie-Stack für ChatGPT, Sora und die API aufzubauen, der in Zukunft eine breitere Funktionserweiterung ermöglichen soll.
Zukunftsaussichten
Die Anwendung der GPT-4o-Bildgenerierung in benutzerdefinierten GPTs verbessert nicht nur die Praktikabilität von KI-Assistenten, sondern bietet Nutzern auch ein intuitiveres und effizienteres Werkzeug zur Erstellung von Inhalten. Obwohl noch einige technische Herausforderungen wie die Stabilität der Anweisungsbefolgung und das Problem der Bildbeschneidung zu lösen sind, ist das Potenzial bereits deutlich erkennbar. AIbase geht davon aus, dass GPT-4o mit der kontinuierlichen Optimierung des Modells und der Erweiterung des API-Zugriffs größere Veränderungen in den Bereichen Content Creation, Business Design und Bildung bewirken wird. AIbase wird die neuesten Entwicklungen von GPT-4o kontinuierlich verfolgen und Ihnen tiefgreifende Einblicke in die zukunftsweisende KI-Technologie bieten.