Erinnern Sie sich noch an Loopy, das neue ByteDance-Projekt, das Anfang des Monats für Aufsehen sorgte? Dieses Projekt, das die Stimme von digitalen Avataren perfekt mit Bildern, Mimik und Emotionen synchronisiert, ist jetzt offiziell auf Jimeng verfügbar.
AIbase hat es ausprobiert und die Ergebnisse sind sehr gut. Es ist wohl derzeit der beste Lipsync-Service für Chinesisch.
Früher hatten Lipsync-Videos oft ein gemeinsames Problem: Der Mund schien zwar zu passen, aber der Ton klang dennoch nicht so, als käme er von der Person, was zu einem Gefühl der Dissonanz beim Zuschauer führte.
Das von ByteDance und einem Forschungsteam der Zhejiang-Universität gemeinsam entwickelte, auf Audio basierende Videodiffusionsmodell LOOPY löst dieses Problem perfekt.
Im Gegensatz zu herkömmlichen Lipsync-Videos, bei denen nur der Mund bewegt wird, kann Loopy in Lipsync-Videos die Charaktere beim Sprechen oder Singen automatisch mit dem entsprechenden Ton, den Emotionen und der Mimik versehen. Es kann die Bewegungen virtueller Avatare präzise „steuern“, z. B. nicht-sprachliche Aktionen wie Seufzen, emotionsgesteuerte Augenbrauen- und Augenbewegungen sowie natürliche Kopfbewegungen.
Diese Funktion ist jetzt in das Videoerstellungsmodul von Jimeng, einem Produkt von ByteDance, integriert:
AIbase hat ein Foto eines Mädchens hochgeladen, um es zu testen.
Jimeng bietet derzeit zwei Möglichkeiten für die Lippensynchronisation:
1. Textvorlesung
Die Bedienung von Jimeng ist im Grunde sehr einfach. Sie müssen nur das Bild oder Video des Charakters hochladen, den Text eingeben und eine Stimme auswählen. AIbase hat hier eine Stimme einer coolen, selbstbewussten Frau gewählt. Das Testergebnis sieht wie folgt aus:
Man sieht, dass die Figur beim Sprechen auch subtile Gesichtsausdrücke zeigt, und die dynamischen Details wie die Nasolabialfalten wirken beim Sprechen recht realistisch.
2. Lokale Audiodatei hochladen
Sie können ihr nicht nur das Sprechen beibringen, sondern auch eine Audiodatei mit Gesang hochladen und sie singen lassen:
Hier hat AIbase einen kürzlich auf Douyin beliebten Auszug aus dem Lied „Ye Ren“ ausgewählt, um die Wirkung zu sehen:
Die Wirkung ist wirklich gut. Nicht nur die Lippenbewegung passt, sondern auch die Stimme wirkt nicht gespalten, als wäre es die Originalstimme des Mädchens.
Es gibt jedoch ein kleines Problem: Bei dem von AIbase gewählten Mädchenfoto schaut das Mädchen nicht in die Kamera, was möglicherweise die Immersion beeinträchtigt. Ich werde ein frontal aufgenommenes Foto verwenden:
Ist es jetzt besser? Außerdem schließt die Figur beim Singen die Augen und schüttelt den Kopf – sehr realistische Bewegungen.
AIbase hat auch eine Version mit einem männlichen Avatar getestet. Das Ergebnis sieht wie folgt aus:
Ist die Wirkung nicht beeindruckend? AIbase war besonders überrascht, dass bei der Lippensynchronisation auch sehr feine Details wie der Adamsapfel und die Augenbrauen berücksichtigt werden. Das macht das gesamte Video realistischer.
Interessierte können es selbst ausprobieren!
Jimeng-Produktzugang: https://top.aibase.com/tool/jimeng