Kürzlich hat das Beijing Institute of Artificial Intelligence ein neues Open-Source-System namens OmniGen2 vorgestellt. Dieses System konzentriert sich auf die Generierung von Bildern aus Text, die Bearbeitung von Bildern und die kreative Erstellung von Kontextbildern.

Im Vergleich zur ersten Generation OmniGen, die 2024 veröffentlicht wurde, verwendet OmniGen2 zwei unabhängige Dekodierungswege: einen für die Textgenerierung und einen für die Bildgenerierung, wobei jeder eigene Parameter und eine entkoppelte Bildmarkierung besitzt. Diese Architektur ermöglicht es dem Modell, seine Fähigkeiten bei der Textgenerierung zu bewahren und gleichzeitig die Leistung von Multimodal-Modellen effektiv zu verbessern.

image.png

Das Kernstück von OmniGen2 ist ein großes Multimodal-Modell (MLLM), basierend auf dem Qwen2.5-VL-3B-Transformer. Bei der Bildgenerierung verwendet dieses System einen benutzerdefinierten Diffusions-Transformer mit etwa 4 Milliarden Parametern. Das Modell wechselt automatisch in den Bildgenerierungsmodus, wenn es auf das spezielle Markierung „<|img|>“ trifft. Es ist erwähnenswert, dass OmniGen2 verschiedene Tipps und Kunststile verarbeiten kann, aber die fotografisch realistischen Bilder haben noch Raum zur Verbesserung in Bezug auf die Schärfe.

image.png

Um OmniGen2 zu trainieren, verwendete das Forschungsteam etwa 140 Millionen Bilder aus öffentlichen Datensätzen und proprietären Sammlungen. Darüber hinaus entwickelten sie neue Technologien, um ähnliche Frames aus Videos (z. B. Gesichter mit einem Lächeln und ohne Lächeln) zu extrahieren und entsprechende Bearbeitungsanweisungen mit Hilfe eines Sprachmodells zu generieren.

Eine weitere Stärke von OmniGen2 ist seine Reflexionsmechanik, die es dem Modell ermöglicht, die generierten Bilder selbst zu bewerten und in mehreren Durchläufen zu verbessern. Das System kann Defizite in den generierten Bildern erkennen und konkrete Vorschläge für Korrekturen machen.

Um die Leistung des Systems zu bewerten, führte das Forschungsteam den OmniContext-Benchmark ein, der aus drei Kategorien besteht: Charaktere, Objekte und Szenen. Jede Kategorie enthält acht Unteraufgaben und jeweils 50 Beispiele. Die Bewertung erfolgte durch GPT-4.1, wobei die Hauptbewertungskriterien die Genauigkeit der Anweisungen und die Konsistenz des Themas waren. OmniGen2 erreichte insgesamt 7,18 Punkte und übertraf damit alle anderen Open-Source-Modelle, während GPT-4o 8,8 Punkte erzielte.

Obwohl OmniGen2 in verschiedenen Benchmarks gute Ergebnisse erzielte, gibt es dennoch einige Schwächen: Die Effekte von englischen Anweisungen sind besser als die von chinesischen. Die Veränderung der Körperhaltung ist komplexer, und die Ausgabeverarbeitung wird auch von den Eingangsbildern beeinflusst. Für mehrdeutige Mehrbild-Anweisungen benötigt das System klare Anweisungen für die Platzierung von Objekten.

Das Forschungsteam plant, das Modell, die Trainingsdaten und den Entwicklungsprozess auf der Plattform Hugging Face zu veröffentlichen.

Wichtige Punkte:  

🌟 OmniGen2 ist ein Open-Source-System zur Generierung von Text und Bildern, das unabhängige Text- und Bilddekodierungswege verwendet.  

🎨 Es kann die Generierung von Bildern in verschiedenen Kunststilen verarbeiten und verfügt über Funktionen zur Selbstreflexion und Verbesserung.  

📈 OmniGen2 zeigte in mehreren Benchmarks gute Leistungen, insbesondere brach es bei der Bildbearbeitung einen neuen Rekord für offene Quellcode-Modelle.