Forscher der Fudan-Universität und von Baidu haben gemeinsam ein neues KI-Modell namens Hallo2 entwickelt. Dieses Modell kann stundenlange 4K-Charakteranimationen generieren und lässt sich präzise über Sprach- und Texteingaben steuern.
Die Erstellung hochwertiger Charakteranimationen war bisher sehr zeit- und kostenintensiv. Hallo2 könnte diese Situation grundlegend verändern und revolutionäre Auswirkungen auf Bereiche wie Filmherstellung, virtuelle Assistenten und Spieleentwicklung haben.
Hallo2 basiert auf Latent-Diffusionsmodellen und integriert eine Reihe innovativer Technologien, darunter:
Patch-Drop-Datenverstärkungstechnik: Durch zufälliges Ausblenden von Bewegungsframes wird verhindert, dass sich das Modell zu stark auf die vorherigen Frames verlässt. Dies gewährleistet ein stabiles Aussehen der generierten Charakteranimationen über lange Sequenzen.
Gauss-Rausch-Verstärkungstechnik: Durch Hinzufügen von Gauss-Rauschen zu den Bewegungsframes wird die Robustheit des Modells gegenüber Bildrauschen und Bewegungsartefakten erhöht, was die Qualität und Kohärenz der Animation weiter verbessert.
VQGAN-diskretes Codebuch-Vorhersagetechnik: Das VQGAN-Modell wird auf die Zeitdimension erweitert und mit einer Zeit-Ausrichtungstechnik kombiniert, um die Generierung von hochauflösenden Videos zu ermöglichen und die Konsistenz der Bilddetails im Zeitverlauf sicherzustellen.
Text-Eingabesteuerung: Durch die Einführung eines adaptiven Layer-Normalisierung-Mechanismus kann das Modell die Mimik und Bewegungen der Charaktere präzise anhand von Texteingaben steuern, wodurch die Animation ausdrucksstärker und kontrollierbarer wird.
Die Leistungsfähigkeit des Hallo2-Modells wurde bereits auf mehreren öffentlich zugänglichen Datensätzen verifiziert, darunter HDTF, CelebV und ein von den Forschern selbst erstellter „Wild“-Datensatz. Die Ergebnisse zeigen, dass Hallo2 bestehende Methoden bei der Generierung hochwertiger, lang sequenzieller Charakteranimationen übertrifft.
Die Veröffentlichung des Hallo2-Modells markiert einen neuen Meilenstein in der Technologie der KI-basierten Charakteranimationsgenerierung. Zukünftig planen die Forscher, die Effizienz und Steuerbarkeit des Modells weiter zu optimieren und seine Anwendung in weiteren Bereichen zu erforschen.
Projektseite: https://fudan-generative-vision.github.io/hallo2/#/
Forschungsarbeit: https://arxiv.org/pdf/2410.07718