Kürzlich hat das Digital-Charakter-Team von ByteDance den vielversprechenden OmniHuman-1.5 vorgestellt, eine überarbeitete Version seines Vorgängers OmniHuman-1. Dieses neue multimodale Digital-Charakter-System löste erneut eine Welle im Bereich der KI-Videogenerierung aus. OmniHuman-1.5 generiert hochrealistische dynamische Videos durch die Kombination einer einzelnen Bild- und Audioeingabe. Es verbessert nicht nur die Koordination der Bewegungen und die Darstellung, sondern fügt auch mehrere innovative Funktionen hinzu, die in Bereichen wie Filmproduktion, virtuelle Moderatoren, Bildung und Werbung neue Möglichkeiten eröffnen.
Projektadresse: https://omnihuman-lab.github.io/v1_5/
Technische Verbesserungen: Erhebliche Steigerung der Realismus und Generalisierbarkeit
OmniHuman-1.5 baut auf der Kerntechnologie seines Vorgängers auf und generiert lebendige Charaktervideos aus einer einzelnen Bild- und Audioeingabe. Im Vergleich zur vorherigen Generation erreicht OmniHuman-1.5 eine deutlich höhere Realismus und Generalisierbarkeit. Dank der optimierten multimodalen Bewegungsbedingungs-Mischtrainingsstrategie des ByteDance-Teams sind die generierten Videos in Bezug auf natürliche Bewegungen, Lippenbewegungen und emotionale Ausdrücke noch präziser und realistischer. Ob bei echten Personen oder animierten Figuren – OmniHuman-1.5 kann dynamische Effekte liefern, die sich perfekt an den Audioinhalt anpassen und eine sehr hohe visuelle Qualität zeigen.
Neuheiten: Doppelte Szenen und lange Videos
Die Unterstützung für zweiköpfige Audioantriebe ist eine Stärke von OmniHuman-1.5. Traditionelle KI-Videogenerierungstechnologien beschränken sich meist auf Einzel-Szenen, während OmniHuman-1.5 erstmals eine Videoerzeugung basierend auf zweiköpfigen Audioeingaben ermöglicht. Es kann präzise Interaktionen und Ausdrücke zwischen mehreren Rollen erfassen und so technische Unterstützung für Multirollenszenen bereitstellen. Darüber hinaus kann das System Videos mit einer Länge von mehr als einer Minute generieren und durch strategische Verknüpfung zwischen Frames die Kontinuität und Identitätskonsistenz langer Videos sicherstellen, um komplexere Anforderungen zu erfüllen, z. B. bei Redevideos oder Musik-MVs.
Emotionserkennung und Textvorgaben: Intelligentere kreative Erfahrung
OmniHuman-1.5 geht nicht nur mechanisch auf Bewegungen ein, sondern kann auch Emotionen in der Audioeingabe erkennen und sie im Video darstellen. Zum Beispiel passt das System automatisch Gesichtsausdrücke und Körpersprache an, basierend auf der Tonlage und Stimmung des Audios, um das Video emotionaler zu machen. Zudem ermöglicht die neu hinzugefügte Textvorgaben-Funktion dem Benutzer, den Videoinhalt durch Textbeschreibungen weiter zu personalisieren, z. B. um den Stil der Szene oder Details der Bewegung festzulegen, was Kreativen größere Flexibilität bietet.
Unterschiedliche Stile: Vollständige Abdeckung von Realpersonen und Nicht-Realpersonen
Außerhalb der Darstellung von Realpersonen zeigt OmniHuman-1.5 besonders gute Ergebnisse bei der Bearbeitung von Nicht-Realpersonen (wie Animationsfiguren, 3D-Cartoons). Das System kann die natürliche Konsistenz der Bewegungen unter verschiedenen Kunststilen beibehalten und sorgt dafür, dass Lippenbewegungen und Bewegungen perfekt mit dem Audio synchronisiert werden. Diese Eigenschaft macht es ideal für Spiel-, Virtual Reality (VR)- und Augmented Reality (AR)-Szenarien und bietet den Nutzern ein immersives Erlebnis.
Breite Anwendung: Ermächtigung der Inhaltsproduktion in verschiedenen Branchen
Das Anwendungspotenzial von OmniHuman-1.5 ist beeindruckend. In der Filmproduktion kann es für Charakteranimation und Effekte verwendet werden, um schnell Videos virtueller Schauspieler zu generieren, die mit dem Audio synchronisiert sind. In virtuellen Moderatoren und Unterhaltungsszenarien können Kreative damit lebendige Charaktere generieren und die Interaktivität im Live-Streaming verbessern. In Bildung und Ausbildung kann OmniHuman-1.5 lebendige Unterrichtsvideos mit dynamischer Körpersprache erstellen, um die Attraktivität und Verständlichkeit der Inhalte zu steigern. In Werbung und Marketing können maßgeschneiderte digitale Charaktere Markenwerbung unterstützen und die Konversionsrate erheblich steigern.
Technische Zukunft und Herausforderungen