Die Qwen-Image-Serie, eine 20 Milliarden Parameter umfassende multimodale Diffusions-Transformer-Modell (MMDiT), wurde erstmals öffentlich zugänglich gemacht. Dieses innovative Werk hat nicht nur bedeutende Fortschritte bei der komplexen Textdarstellung und präziser Bildbearbeitung erzielt, sondern auch in mehreren öffentlichen Benchmark-Tests außergewöhnliche Leistungen gezeigt und ist zu einer neuen Kraft im Bereich der Bildgenerierung und -bearbeitung geworden.
Qwen-Image zeichnet sich durch seine starke Fähigkeit zur Textdarstellung aus und unterstützt die Darstellung von mehrzeiligen Layouts, Absatzniveau-Textgenerierung und feinkörnige Details. Ob englisch oder chinesisch – die Ausgabe erfolgt mit hoher Wiedergabequalität. Beispielsweise kann das Modell bei der Darstellung von Animationszenen im Stil von Hayao Miyazaki präzise Ladenplaketten, Haltung und Ausdruck der Figuren sowie sogar kleine Schriftzeichen auf einem Weinfaß darstellen. Ebenso genau wird bei der Darstellung von chinesischen Paarreimen die linke und rechte Zeile sowie der Querstreif korrekt dargestellt und künstlerische Effekte hinzugefügt, was beeindruckend ist.
Bei der Darstellung englischer Texte zeigt Qwen-Image ebenfalls beeindruckende Fähigkeiten. Ob Informationen in Buchhandlungsfenstern oder komplexe Informationsgrafiken – das Modell kann Textinhalt präzise generieren und ihn geschickt in die Gesamtgestaltung integrieren, wobei eine hohe Kreativität und Informationsdichte erkennbar sind. Besonders beeindruckend ist, dass Qwen-Image auch bei der Bearbeitung kleinerer oder größerer Textmengen eine hohe Genauigkeit und Klarheit bewahrt, z. B. bei der genauen Generierung langer Textabschnitte auf einem Blatt Papier oder bei der vollständigen Darstellung von Handgeschriebenen Abschnitten auf einer Glasscheibe.
Außerhalb der Textdarstellung hat Qwen-Image auch bei der Bildbearbeitung bemerkenswerte Fähigkeiten gezeigt. Dank des verbesserten Multi-Task-Trainingsmodells kann das Modell bei der Bearbeitung eine hervorragende Konsistenz aufrechterhalten und unterstützt verschiedene Operationen wie Stilübertragung, Objektzufügung oder -entfernung, Detailverbesserung und Veränderung der menschlichen Haltung. Dadurch können auch Laien professionelle Bildbearbeitungsvorgänge leicht durchführen und somit den technischen Barrierefreiheitsgrad für visuelle Inhaltsproduktion stark reduzieren.
In mehreren öffentlichen Benchmark-Tests hat Qwen-Image besonders beeindruckende Ergebnisse erzielt. Von allgemeinen Bildgenerierungsbenchmarks wie GenEval, DPG und OneIG-Bench bis hin zu Benchmarks für Bildbearbeitung wie GEdit, ImgEdit und GSO hat Qwen-Image führende Leistungen gezeigt und so seine umfassenden Vorteile im Bereich der Bildgenerierung und -bearbeitung unter Beweis gestellt. Insbesondere bei der chinesischen Textdarstellung hat Qwen-Image deutlich vor bestehenden führenden Modellen abgeschnitten und so seine einzigartige Position als fortschrittliches Bildgenerierungsmodell hervorgehoben.
Zurzeit ist Qwen-Image in Communities wie ModelScope, Hugging Face und GitHub öffentlich zugänglich gemacht worden und bietet zudem eine detaillierte Technical Report und Demo. Benutzer können QwenChat (chat.qwen.ai) besuchen und die Funktion „Bildgenerierung“ auswählen, um die Macht dieses leistungsstarken Modells selbst zu erleben.
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
GitHub:https://github.com/QwenLM/Qwen-Image
Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced