Audio to Photoreal Embodiment
Framework zur Generierung fotorealistischer Ganzkörper-Avatare.
Normales ProduktBildFotorealistischer Ganzkörper-AvatarPosen und Bewegungen
Audio to Photoreal Embodiment ist ein Framework zur Generierung fotorealistischer Ganzkörper-Avatare. Es generiert dynamisch verschiedene Posen und Bewegungen von Gesicht, Körper und Händen basierend auf Dialogen. Der Schlüssel unseres Ansatzes liegt in der Kombination der durch vektorquantisierte Stichproben erzielten Diversität mit den durch Diffusion erzielten hochfrequenten Details, um dynamischere und ausdrucksstärkere Bewegungen zu erzeugen. Die visualisierten Bewegungen, dargestellt durch hochrealistische Avatare, ermöglichen die Darstellung subtiler Unterschiede in den Posen (z.B. Spott und Hochmut). Zur Förderung dieser Forschungsrichtung stellen wir einen neuartigen, multiview-basierten Dialog-Datensatz für die fotorealistische Rekonstruktion vor. Experimente zeigen, dass unser Modell angemessene und diverse Bewegungen generiert und dabei Diffusions- und rein vektorquantisierte Methoden übertrifft. Darüber hinaus hebt unsere Wahrnehmungsbewertung die Bedeutung fotorealistischer (im Gegensatz zu Mesh-basierten) Darstellungen für die genaue Erfassung subtiler Bewegungsdetails in Dialogposen hervor. Code und Datensatz sind online verfügbar.
Audio to Photoreal Embodiment Neueste Verkehrssituation
Monatliche Gesamtbesuche
23904807
Absprungrate
43.33%
Durchschnittliche Seiten pro Besuch
5.8
Durchschnittliche Besuchsdauer
00:04:51