Tencent Hun Yuan gibt die Open-Source-Veröffentlichung des benutzerdefinierten Bildgenerierungs-Plugins InstantCharacter bekannt und hat die Kompatibilität mit dem Open-Source-Text-zu-Bild-Modell Flux erreicht. Die Einführung dieses Plugins markiert einen bedeutenden Durchbruch in der Bildgenerierungstechnologie hinsichtlich der Konsistenz von Charakteren und der Genauigkeit der Bilderzeugung und bietet Content-Erstellern effizientere und flexiblere Werkzeuge.
Der Kernvorteil von InstantCharacter liegt in der Gewährleistung der Konsistenz und Realitätsnähe von Charakteren in verschiedenen Szenarien, kombiniert mit hoher Bildqualität und -präzision sowie flexibler Textbearbeitung. Benutzer können mit einfachen Prompts jeden Charakter in der gewünschten Pose an jedem beliebigen Ort platzieren. Beispielsweise kann mit nur einem Bild und einer Beschreibung wie „Ein Hase in der Küche, der mit einem Löffel Suppe trinkt“ das entsprechende Bild generiert werden. Diese Fähigkeit ist besonders wichtig in Szenarien mit mehrstufiger Text-zu-Bild-Generierung und löst das Problem der Charakterkonsistenz.
Technisch gesehen nutzt InstantCharacter ein innovatives Framework, das auf dem DiT-Modell basiert und einen skalierbaren Adapter einführt. Dieser verwendet mehrere Transformer-Encoder, um offene Charaktereigenschaften effektiv zu verarbeiten und nahtlos mit dem latenten Raum moderner Diffusions-Transformer zu interagieren. Dieses Design ermöglicht es dem System, sich flexibel an verschiedene Charaktereigenschaften anzupassen und gleichzeitig eine hohe Konsistenz zu gewährleisten.
Um dieses Framework effektiv zu trainieren, hat das Tencent Hun Yuan-Team einen umfangreichen Datensatz mit Millionen von Beispielen von Charakteren erstellt. Der Datensatz ist systematisch in paarweise (mehrperspektivische Charaktere) und nicht-paarweise (Text-Bild-Kombinationen) Teilmengen organisiert, so dass die Identitätskonsistenz und die Textbearbeitbarkeit über verschiedene Lernpfade gleichzeitig optimiert werden können. Diese duale Datenstruktur verbessert die Generalisierungsfähigkeit und die Bildqualität des Modells weiter.
In praktischen Tests erreicht InstantCharacter eine Leistung, die mit branchenführenden Modellen wie GPT-4o vergleichbar ist. Es kann Bilder mit verschiedenen Stilen und Komplexitätsgraden verarbeiten und eignet sich für verschiedene Szenarien wie Comic- und Filmproduktionen. Mit InstantCharacter können Content-Ersteller die generierten Charaktere konsistent halten und effizienter visuelle Werke erstellen, die ihren Anforderungen entsprechen.
- Projektwebsite: https://instantcharacter.github.io/
- Code: https://github.com/Tencent/InstantCharacter
- Hugging Face Demo: https://huggingface.co/spaces/InstantX/InstantCharacter
- Forschungsarbeit: https://arxiv.org/abs/2504.12395