Das Beijing Academy of Artificial Intelligence (BAAI) hat kürzlich die Einführung von OmniGen, einem neuen, universellen Modell zur Bilderzeugung, angekündigt – ein bedeutender Durchbruch im Bereich der Bildgenerierung. OmniGen zeichnet sich durch seine Einheitlichkeit, Einfachheit und die Fähigkeit zum Wissenstransfer zwischen verschiedenen Aufgaben aus. Es kann verschiedene Bildgenerierungsaufgaben in einem einzigen Framework bewältigen, darunter Text-zu-Bild-Generierung, Bildbearbeitung, themengesteuerte Generierung und visuell bedingte Generierung.

微信截图_20241029103628.png

Darüber hinaus kann OmniGen klassische Aufgaben der Computer Vision wie Entrauschen und Kantenerkennung bewältigen, indem es diese Aufgaben in Bildgenerierungsaufgaben umwandelt.

Der Kernvorteil von OmniGen liegt in seiner vereinfachten Architektur und der benutzerfreundlichen Bedienung. Benutzer können komplexe Bildgenerierungsaufgaben mit einfachen Anweisungen erledigen, ohne zusätzliche Plugins oder komplexe Verarbeitungsschritte. Dieses einheitliche Lernformat ermöglicht OmniGen einen effektiven Wissenstransfer zwischen verschiedenen Aufgaben, um unbekannte Aufgaben und Bereiche zu bewältigen und neue Funktionen aufzuzeigen.

Die Fähigkeiten von OmniGen beschränken sich nicht nur auf die oben genannten Punkte, sondern umfassen auch grundlegende Bildverarbeitungsfunktionen wie Entrauschen und Kantenerkennung. Die Modellgewichte und der Code wurden Open Source bereitgestellt, damit Benutzer die Fähigkeiten von OmniGen selbst erkunden und nach Bedarf feinabstimmen können. Das BAAI hat einen umfangreichen und vielfältigen, einheitlichen Datensatz für die Bildgenerierung namens X2I mit etwa 100 Millionen Bildern erstellt, der in Zukunft ebenfalls Open Source zur Verfügung gestellt wird, um die Entwicklung im Bereich der universellen Bildgenerierung voranzutreiben.

Verwandte Links:

Paper: https://arxiv.org/pdf/2409.11340

Code: https://github.com/VectorSpaceLab/OmniGen

Demo: https://huggingface.co/spaces/Shitao/OmniGen