Die Tencent-Gruppe hat offiziell ihre neueste Mischform-Bildmodell-Version 2.0 (Hunyuan Bild2.0) veröffentlicht, was den Schritt in die Ära der „Millisekunden-“ Reaktionszeit für künstliche Intelligenz-basierte Bildgenerierung markiert.

Das neue Modell zeigt eine signifikante Verbesserung in Bezug auf Geschwindigkeit im Vergleich zur Vorgänger-Version. Mit einer zehnfachen Erhöhung an Parametern kombiniert es einen effizienten Bildkompressor und ein neues Diffusionsarchitektur, um unter ähnlichen Bedingungen wie anderen kommerziellen Produkten, die normalerweise 5 bis 10 Sekunden für die Inferenz benötigen, eine Millisekundenreaktion zu erreichen. Während der Bildgenerierung können Nutzer sowohl Texteingaben als auch Sprachbefehle gleichzeitig verwenden und sofortige Bildausgaben erhalten, wodurch das traditionelle "Ziehen-Karten-Warten-Ziehen-Karten"-Muster völlig revolutioniert wird und das Benutzerinteraktionserlebnis erheblich verbessert wird.

Hochrealistische Bildqualität
Neben der Geschwindigkeitsverbesserung hat das Modell Hunyuan Bild2.0 auch bedeutende Fortschritte in der Qualität der generierten Bilder gemacht. Durch verstärkte Lernen und die Einführung großer Mengen an menschlichen ästhetischen Kenntnissen wurde erfolgreich verhindert, dass bei der KI-Bildgenerierung das typische „Künstlerische KI-Ergebnis“ entsteht. Die generierten Bilder sind nicht nur hochrealistisch und mit vielen Details versehen, sondern haben auch eine hohe Nützlichkeit. Bei international anerkannten Tests auf dem GenEval-Benchmark erreichte das Modell eine Richtigkeitsrate von über 95% bei der Auswertung der Verständnis- und Generierungsfähigkeit komplexer Textanweisungen, was deutlich besser ist als andere vergleichbare Modelle.
Innovative Live-Drawing-Funktion
Bei dieser Aktualisierung wurde auch die Live-Drawing-Funktion vorgestellt, die die realzeitfähige Bildgenerierung nutzt, um beim Zeichnen von Strichmännchen oder Anpassung von Parametern im Vorschaubereich gleichzeitig Farben zu generieren. Diese Funktion bricht mit dem herkömmlichen „Zeichnen-Warten-Ändern“-Prozess und erleichtert die Schaffensarbeit professioneller Designer erheblich. Darüber hinaus unterstützt die Live-Drawing-Funktion die Fusion mehrerer Skizzen, sodass Nutzer mehrere Rohentwürfe hochladen können, die von der KI automatisch in Bezug auf Perspektive und Licht verarbeitet werden und gemäß der vorgegebenen Hinweise zu einem fusionierten Bild kombiniert werden, was das interaktive Erlebnis weiter vertieft.

Tencent gab auch an, dass ein originäres multimodales Bildgenerierungs-Großmodell in der Entwicklung ist. Das neue Modell wird sich durch herausragende Leistungen in mehrstufiger Bildgenerierung und interaktiver Benutzererfahrung auszeichnen und Nutzern eine noch reichhaltigere Schaffensfreude bieten.
Produktzugang: https://hunyuan.tencent.com/