Kürzlich hat Tencent eine neue Methode eingeführt, um die Realismus und Ästhetik von KI-generierten Bildern zu verbessern. Laut Berichten kann diese Feinabstimmungstechnik nach nur 10 Minuten Training mit 32 H20-Grafikkarten erhebliche Konvergenzeffekte erzielen, wobei die menschliche Bewertung um mehr als 300 % gestiegen ist.

Aktuelle Diffusionsmodelle können zwar die Bildqualität durch ein Belohnungssystem optimieren, stehen jedoch vor einigen Herausforderungen. Erstens sind die Optimierungsschritte des Modells begrenzt, was zu sogenannten „Belohnungsmanipulationen“ führen kann, bei denen das Modell Bilder geringer Qualität generiert, um hohe Bewertungen zu erhalten. Zweitens ist der Prozess zur Offline-Anpassung des Belohnungsmodells nicht flexibel genug, was die Fähigkeit zur Echtzeit-Optimierung einschränkt.

image.png

Um diese Probleme zu lösen, haben das Tencent-Team zwei innovative Methoden vorgestellt. Die erste ist die Technologie namens „Direct-Align“, bei der Rauschen vorab eingespeist wird, sodass das Modell aus jedem Zeitpunkt das Originalbild wiederherstellen kann. Diese Methode reduziert Phänomene wie Gradient-Explosionen im frühen Rückwärtspropagationsprozess und ermöglicht es dem Modell, während des gesamten Diffusionsprozesses zu optimieren, nicht nur in den letzten Schritten.

Die zweite Innovation ist die „Semantische relative Präferenzoptimierung“ (SRPO). Diese Methode wandelt das Belohnungssignal in ein textgesteuertes Signal um. Durch Hinzufügen positiver und negativer Schlüsselwörter kann das Modell die Stilrichtung der generierten Bilder flexibel anpassen, ohne zusätzliche Daten zu benötigen. Das bedeutet, dass Benutzer einfach kurze Kontrollphrasen vor den Schlüsselwörtern hinzufügen können, um Funktionen wie Helligkeitsanpassungen oder Stilumwandlungen zu realisieren.

Die Experimente zeigten, dass das FLUX.1-dev-Modell, das mit SRPO trainiert wurde, deutlich bessere Leistungen in Bezug auf Realismus und ästhetische Qualität aufweist. In einem Test mit 3200 Schlüsselwörtern stieg die Quote der Bilder mit hoher Realität von 8,2 % auf 38,9 %, während die Quote der Bilder mit hoher ästhetischer Qualität von 9,8 % auf 40,5 % anstieg. Im Vergleich zu anderen Methoden bietet SRPO nicht nur eine hohe ästhetische Qualität, sondern auch natürlichere Texturmerkmale in den generierten Bildern.

Diese erfolgreiche Anwendung dieser Technologie zeigt, dass Tencent seine Forschungen im Bereich KI-Kunst weiter vertieft und gleichzeitig den Weg für zukünftige Technologien im Bereich KI-generierter Bilder weist.

Paper-Link: https://arxiv.org/pdf/2509.06942