Das Ostris-Team hat Flex.2-preview veröffentlicht, ein Text-zu-Bild-Diffusionsmodell mit 800 Millionen Parametern, speziell für die Integration in ComfyUI-Workflows entwickelt. Laut AIbase zeichnet sich das Modell durch hervorragende Steuerungsfähigkeiten bei der Generierung basierend auf Linien, Posen und Tiefeninformationen aus. Es unterstützt universelle Steuerungen und Bildreparaturfunktionen und setzt die Feinabstimmung von Flux.1Schnell über OpenFlux.1 und Flex.1-alpha fort. Flex.2-preview ist auf Hugging Face Open Source verfügbar und wird aufgrund seiner Apache2.0-Lizenz und der flexiblen Workflow-Integration schnell zum Mittelpunkt der AI-Kunst-Community.

image.png

Kernfunktionen: Universelle Steuerung und nahtlose Workflow-Integration

Flex.2-preview definiert die Text-zu-Bild-Generierung mit seinen leistungsstarken Steuerungsfunktionen und der nativen ComfyUI-Unterstützung neu. AIbase hat die Hauptfunktionen zusammengefasst:

Universelle Steuerungsunterstützung: Integrierte Linien- (Canny), Pose- und Tiefenkontrolle ermöglichen es Benutzern, die Generierungsergebnisse durch präzise Steuerung des Bildes zu lenken, z. B. die Generierung von 3D-Szenen basierend auf Tiefenkarten oder die Generierung detaillierter Illustrationen basierend auf Skizzen.

Bildreparaturfähigkeit: Unterstützt erweiterte Bildreparatur (Inpainting). Benutzer können Bereiche über Masken zur Inhaltsersetzung oder -reparatur festlegen, z. B. einen Hund durch einen „weißen Roboterhund auf einer Bank“ ersetzen.

ComfyUI-Workflow-Integration: Das Modell ist für ComfyUI optimiert und bietet Unterstützung für knotenbasierte Workflows, die die Konfiguration komplexer Aufgaben wie Text-zu-Bild, Bild-zu-Bild und die Kombination von Steuerungsnetzwerken vereinfachen.

Effiziente Generierung: Basierend auf einer optimierten Architektur mit 800 Millionen Parametern benötigt die Generierung von hochauflösenden Bildern (1024x1024) nur 50 Inferenzschritte und eignet sich für Consumer-GPUs mit 16 GB VRAM.

AIbase hat festgestellt, dass Benutzer in Community-Tests mit den Steuerungs-Nodes von Flex.2-preview eine „Cyberpunk-Stadtlandschaft bei Nacht“ generiert haben. Durch die Tiefenkarte und die Linienkontrolle wurde eine hohe Konsistenz der Komposition erreicht, was das Potenzial für kreative Designs zeigt.

ostris_Flex.2-preview 昨天发布了,这是个8B大小的文本生成图像的扩散模型。这个 (1).jpg

Technische Architektur: Die Evolution von Flux.1Schnell zu Flex.2

Flex.2-preview basiert auf Flux.1Schnell von Black Forest Labs und wurde in mehreren Schritten feinabgestimmt und optimiert. AIbase analysiert die technische Entwicklung wie folgt:

Architekturoptimierung: Übernahme der Architektur des Gleichrichters-Flow-Transformers (Rectified Flow Transformer) von Flux.1 mit 8 Dual-Transformer-Blöcken (im Vergleich zu 19 bei Flux.1-dev leichter). Durch den Guidance Embedder wird die Abhängigkeit von Classifier-Free Guidance (CFG) eliminiert.

Steuerung und Reparaturintegration: Verwendung eines 16-Kanal-Latent-Space-Designs in Kombination mit Rausch-Latent, Variational Autoencoder (VAE)-codierten Reparaturbildern, Masken und Steuereingaben (insgesamt 49 Kanäle) zur Unterstützung flexibler Steuerungs- und Reparatur-Workflows.

Open Source und Feinabstimmungsunterstützung: Über AI-Toolkit werden Feinabstimmungswerkzeuge bereitgestellt. Entwickler können das Guidance Embedding umgehen, um benutzerdefinierte Trainings durchzuführen und Modelle mit spezifischen Stilen oder Themen zu generieren, wobei die kommerzielle Freundlichkeit der Apache2.0-Lizenz erhalten bleibt.

Effiziente Inferenz: Unterstützt FP8- und bfloat16-Genauigkeit. Durch die 8-Bit-Quantisierung mit TorchAo wird der Speicherbedarf reduziert und die Inferenzgeschwindigkeit auf Hardware wie RTX3090 optimiert.

AIbase ist der Ansicht, dass das leichtgewichtige Design und die universellen Steuerungsfunktionen von Flex.2-preview es zur idealen Wahl für das ComfyUI-Ökosystem machen, und es im Vergleich zu Flux.1Schnell flexibler in komplexen Workflows ist.

Anwendungsfälle: Von der Kunstgestaltung bis zum kommerziellen Design

Die Vielseitigkeit von Flex.2-preview macht es für verschiedene kreative und kommerzielle Szenarien geeignet. AIbase fasst die wichtigsten Anwendungen zusammen:

Digitale Kunst und Illustrationen: Künstler können mithilfe der Linien- und Tiefenkontrolle schnell Konzeptkunst oder Illustrationen erstellen, die sich für die Spielgrafik und die Vorvisualisierung von Animationen eignen.

Werbung und Markendesign: Mit der Bildreparaturfunktion können Werbematerialien schnell angepasst werden, z. B. Produkte oder Hintergründe ersetzt werden, wobei gleichzeitig die Markenkonsistenz erhalten bleibt.

Film und Content-Erstellung: Unterstützt die Charaktergestaltung oder Szenengenerierung basierend auf der Posensteuerung, um die Entwicklung von Storyboards und visuellen Effekten zu beschleunigen.

Bildung und Prototyping: Bietet eine kostengünstige Lösung für die Bildgenerierung für den Unterricht oder Produktprototypen. Studenten und Startups können visuelle Ideen schnell iterieren.

Community-Feedback zeigt, dass Flex.2-preview bei der Verarbeitung komplexer Prompts (z. B. „Steampunk-Mechaniker repariert Roboter in einer Fabrik“) detailliertere Bilder und eine höhere Steuergenauigkeit als OpenFlux.1 erzeugt, insbesondere bei Händen und Textgenerierung, die dem Niveau von Midjourney nahe kommen. AIbase hat beobachtet, dass die Integrationsfähigkeit mit XLabs ControlNet die Workflow-Vielfalt weiter verbessert.

Anleitung: Schnelle Bereitstellung und ComfyUI-Integration

AIbase weiß, dass die Bereitstellung von Flex.2-preview für ComfyUI-Benutzer sehr benutzerfreundlich ist. Die Hardwareanforderung beträgt 16 GB VRAM (RTX3060 oder höher empfohlen). Entwickler können die folgenden Schritte ausführen, um schnell zu beginnen:

Laden Sie Flex.2-preview.safetensors von Hugging Face (huggingface.co/ostris/Flex.2-preview) herunter und legen Sie es in ComfyUI/models/diffusion_models/ ab.

Stellen Sie sicher, dass ComfyUI auf die neueste Version aktualisiert wurde (über „Update All“ im ComfyUI Manager) und installieren Sie die erforderlichen CLIP-Modelle (t5xxl_fp16.safetensors und clip_l.safetensors) und VAE (ae.safetensors).

Laden Sie die bereitgestellte flex2-workflow.json herunter und ziehen Sie sie in ComfyUI, um den Workflow zu laden. Konfigurieren Sie die Prompts und Steuerungsbilder (z. B. Tiefenkarten oder Skizzen).

Führen Sie die Inferenz aus, passen Sie control_strength (0,5 empfohlen) und guidance_scale (3,5 empfohlen) an und generieren Sie 1024x1024-Bilder.

Die Community empfiehlt die Verwendung des bereitgestellten Diffusers-Beispielcodes oder des Flex2Conditioning-Nodes von ComfyUI, um die Generierungsergebnisse zu optimieren. AIbase weist darauf hin, dass bei der ersten Ausführung sichergestellt werden muss, dass die Bibliotheken torch, diffusers und transformers installiert sind und die Verbindungen der Knoten im Workflow vollständig sind.

Leistungsvergleich: Übertrifft Vorgänger und Konkurrenz

Flex.2-preview übertrifft seine Vorgänger OpenFlux.1 und Flux.1Schnell deutlich in der Leistung. AIbase hat einen Vergleich mit gängigen Modellen zusammengestellt:

Bildqualität: In der VBench-Bewertung liegt der CLIP-Score von Flex.2-preview (0,82) nahe an Flux.1-dev (0,84) und übertrifft Flux.1Schnell (0,79), insbesondere bei Handdetails und komplexen Kompositionen.

Steuergenauigkeit: In Kombination mit XLabs ControlNet übertrifft Flex.2 bei Canny- und Tiefenkontroll-Aufgaben die Konsistenz von InstantX Flux.1-dev-Controlnet-Union-alpha um etwa 8 %.

Inferenzgeschwindigkeit: Die Generierung von 1024x1024-Bildern (50 Schritte) dauert durchschnittlich 20 Sekunden (RTX3090, FP8) und ist damit etwa 15 % schneller als Flux.1-dev, was schnelle Iterationen ermöglicht.

Ressourcenverbrauch: 800 Millionen Parameter und FP8-Quantisierung reduzieren den Speicherbedarf auf 60 % von Flux.1-dev und eignen sich besser für Consumer-Hardware.

AIbase ist der Ansicht, dass das Leistungsgleichgewicht von Flex.2-preview es zu einem einzigartigen Modell unter den Open-Source-Modellen macht, insbesondere für Workflows, die eine hohe Steuergenauigkeit und schnelle Generierung erfordern.

Community-Feedback und Verbesserungsrichtungen

Nach der Veröffentlichung von Flex.2-preview wurde die flexible Steuerungsfähigkeit und der Open-Source-Gedanke von der Community hoch gelobt. Entwickler bezeichnen es als „das ComfyUI-Workflow-Potenzial voll auszuschöpfen“, insbesondere bei der Kunstgestaltung und Reparatur-Aufgaben. Einige Benutzer gaben jedoch an, dass das Modell das semantische Verständnis komplexer Prompts noch verbessern könnte, und empfehlen, die Prompt-Verarbeitung des T5-Encoders zu verbessern. Die Community erwartet auch, dass Flex.2 die Videogenerierung und eine breitere ControlNet-Integration (z. B. Pose-Schätzung) unterstützt. Das Ostris-Team antwortete, dass die nächste Version die Verarbeitung multimodaler Prompts optimieren und eine dynamische Schwellenwertanpassung einführen wird, um die Stabilität der Generierung weiter zu verbessern. AIbase prognostiziert, dass Flex.2 möglicherweise mit dem Steuerungsmodul von Hailuo Image oder der HunYuan 3D-Engine kombiniert wird, um ein multimodales Kreativ-Ökosystem zu schaffen.

Zukunftsaussichten: Die kontinuierliche Weiterentwicklung der Open-Source-KI-Kunst

Die Veröffentlichung von Flex.2-preview unterstreicht die Innovationsfähigkeit von Ostris im Bereich der Open-Source-KI-Bildgenerierung. AIbase ist der Ansicht, dass der Entwicklungspfad von Flux.1Schnell zu Flex.2 das Potenzial der Community-getriebenen Entwicklung zeigt, insbesondere die Integrationsfähigkeit im ComfyUI-Ökosystem bietet Entwicklern unbegrenzte Möglichkeiten. Mit der kontinuierlichen Weiterentwicklung des AI-Toolkits wird Flex.2 voraussichtlich zum Standardmodell für Feinabstimmung und benutzerdefinierte Generierung. Die Community diskutiert bereits die Kombination mit dem MCP-Protokoll, um einen einheitlichen AI-Kunst-Workflow zu erstellen, ähnlich der Online-Plattform RunComfy. AIbase erwartet die Veröffentlichung der offiziellen Version von Flex.2 im Jahr 2025, insbesondere die Durchbrüche bei der Unterstützung mehrerer Auflösungen und der Echtzeitgenerierung.

Projektseite: https://huggingface.co/ostris/Flex.2-preview