Die Zhejiang-Universität und Alibaba haben gemeinsam ein neues audiogetriebenes Modell namens OmniAvatar entwickelt, das eine neue Höhe in der Digitalpersonentechnologie markiert. Das Modell wird durch Audio angetrieben und kann natürliche, flüssige Videos von ganzen digitalen Personen generieren, wobei es besonders bei Gesangsszenarien hervorragende Ergebnisse erzielt. Die Lippenbewegungen sind präzise synchronisiert mit dem Audio, was ein sehr realistisches Ergebnis liefert.
OmniAvatar ermöglicht eine präzise Steuerung der Generierungsdetails über Textanweisungen. Benutzer können die Bewegungsamplitude der Person, die Hintergrundumgebung und die Emotionen selbst anpassen und zeigen so eine hohe Flexibilität. Darüber hinaus kann das Modell Videos erstellen, in denen virtuelle Personen mit Objekten interagieren, was für kommerzielle Szenarien wie E-Commerce-Werbung und Marketingwerbung großes Anwendungspotenzial bietet. Zum Beispiel können Marken OmniAvatar nutzen, um dynamische Werbevideos zu erstellen und die Interaktionserfahrung der Verbraucher zu verbessern.
Als Open-Source-Projekt wurde OmniAvatar auf GitHub veröffentlicht und hat weltweit Aufmerksamkeit von Entwicklern gewonnen. Seine außergewöhnlichen Leistungen in Bezug auf Gesichtsausdrücke, Halb- und Vollkörperanimationen übertreffen bestehende ähnliche Modelle. Es wird berichtet, dass das Modell auch für mehrere Szenarien geeignet ist, darunter Podcasts, menschliche Interaktionen und dynamische Darbietungen, und zeigt damit großes Potenzial im Bereich der Inhaltserschaffung.
Branchenexperten betonen, dass die Veröffentlichung von OmniAvatar nicht nur die Realitätsnähe und Kontrollierbarkeit der audiogetriebenen Digitalpersonentechnologie verbessert hat, sondern auch die Innovation in Bereichen wie Marketing, Bildung und Unterhaltung vorangetrieben hat. In Zukunft werden die Zhejiang-Universität und Alibaba ihre Zusammenarbeit vertiefen und weitere Möglichkeiten des multimodalen KI erforschen.