Am dritten Tag der SkyWork AI-Technologie-Präsentationswoche gab die KUNLUN WANYI Gruppe offiziell die Open-Source-Veröffentlichung ihres neuesten entwickelten Modells „Skywork UniPic2.0“ bekannt. Die Veröffentlichung dieses einheitlichen Multimodal-Modells markiert einen weiteren bedeutenden Durchbruch im Bereich der multimodalen künstlichen Intelligenz. Skywork UniPic2.0 ist ein effizienter Trainings- und Inferenz-Framework für einheitliche multimodale Modellierung. Durch die Leichtgewichtigkeit von Generierungs- und Bearbeitungsmodulen sowie das gemeinsame Training des multimodalen Verständnismodells wird eine zentrale Fähigkeit zur Verständnis, Bildgenerierung und Bearbeitung aufgebaut. Das Ziel ist es, ein „effizientes, hochwertiges und einheitliches“ multimodales Generierungsmodell zu realisieren.
Skywork UniPic2.0 besteht aus drei Kernmodulen: Bildgenerierung und -bearbeitung, einheitlicher Modellfähigkeit und nachfolgender Trainierung nach Bildgenerierung und -bearbeitung. Das Modell basiert auf der SD3.5-Medium-Architektur und verbessert ein ursprünglich nur Texteingang unterstützendes Modell, sodass es nun sowohl Text als auch Bilder verarbeiten kann. So wird die Bildgenerierungsfähigkeit auf Bildgenerierung und -bearbeitung erweitert. Durch das Fixieren des Bildgenerierung- und -bearbeitungsmoduls und die Nutzung des multimodalen Modells Qwen2.5-VL-7B sowie des Pre-Train-Connectors wird eine integrierte Fähigkeit zur Verständnis, Bildgenerierung und -bearbeitung aufgebaut. Anschließend werden der Connector und das Bildgenerierung- und -bearbeitungsmodul gemeinsam feinabgestimmt, um letztendlich ein integriertes Modell zur Verständnis, Bildgenerierung und -bearbeitung zu erreichen.
Skywork UniPic2.0 bietet nicht nur Entwicklern und Forschern eine umfassende Open-Source-Plattform, einschließlich Modellgewichte, Inferenzcode und Verstärkungsstrategien, sondern seine Generierungsmodul wurde auf der Basis einer 2B-Parameter-SD3.5-Medium-Architektur trainiert und übertrifft in Bildgenerierung und -bearbeitung die Modelle mit größerer Parameteranzahl. Darüber hinaus hat das Modell verstärktes Lernen eingeführt und eine neuartige fortgeschrittene Doppelaufgabenverstärkungsstrategie namens Flow-GRPO implementiert, wodurch die Fähigkeit des Modells, komplexe Befehle zu verstehen, und die Konsistenz bei Bildgenerierung und -bearbeitung effektiv verbessert wurden.
Projektseite:
https://unipic-v2.github.io/
Technische Berichte:
https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf
GitHub-Adresse:
https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
HuggingFace Gradio:
https://huggingface.co/spaces/Skywork/UniPic2-Metaquery
HuggingFace Model:
https://huggingface.co/spaces/Skywork/UniPic2-Metaquery; https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B; https://huggingface.co/Skywork/UniPic2-Metaquery-9B