Kürzlich hat eine neue Technologie namens INFP (Interactive, Natural, Flash and Person-generic) große Aufmerksamkeit erregt. Diese Technologie zielt darauf ab, das Problem der unzureichenden Interaktion bei aktuellen KI-Avatar-Dialogen zu lösen und es virtuellen Figuren zu ermöglichen, ihre Mimik und Gestik während eines Gesprächs wie ein echter Mensch dynamisch an den Gesprächsinhalt anzupassen.

image.png

Vom „Ein-Mann-Show“ zum „Duett“

Frühere KI-Avatare konnten entweder nur monologisieren, wie ein Stand-up-Comedian, oder passiv zuhören, ohne jegliche Reaktion – wie eine „Holzpuppe“. Menschliche Gespräche funktionieren aber ganz anders! Wir schauen unserem Gegenüber in die Augen, nicken, runzeln die Stirn, scherzen – das ist echte Interaktion!

INFP soll diese unbefriedigende Situation grundlegend verändern! Es fungiert wie ein „Dirigent“ für ein „Duett“ und passt die Mimik und Gestik des KI-Avatars dynamisch an die Audiodaten des Gesprächs zwischen Ihnen und der KI an, sodass Sie sich fühlen, als würden Sie mit einer echten Person sprechen!

INFPs „Geheimrezepte“: Zwei entscheidende Elemente!

INFPs Leistungsfähigkeit basiert auf zwei „Geheimrezepten“:

Meister der Bewegungsnachahmung (Motion-Based Head Imitation):

Es lernt aus einer Vielzahl von realen Gesprächsvideos die Mimik und Gestik von Menschen, wie ein „Meister der Bewegungsnachahmung“, und komprimiert diese komplexen Verhaltensweisen in „Bewegungscodes“.

Um die Bewegungen realistischer zu gestalten, konzentriert es sich besonders auf Augen und Mund – die „Hauptdarsteller“ der Mimik – als wären sie im „Close-up“.

Es verwendet außerdem Gesichts-Keypoints, um die Erzeugung von Gesichtsausdrücken zu unterstützen und die Genauigkeit und Natürlichkeit der Bewegungen zu gewährleisten.

Anschließend wendet es diese „Bewegungscodes“ auf einen statischen Avatar an, wodurch dieser zum Leben erwacht – wie durch Zauberhand!

Audiogesteuerte Bewegungsgenerierung (Audio-Guided Motion Generation):

Dieser „Generator“ ist noch leistungsfähiger: Er versteht die Audiodaten Ihres Gesprächs mit der KI, wie ein Experte für „Schallortung“.

Er analysiert, wer spricht und wer zuhört, und passt den Zustand des KI-Avatars dynamisch an, sodass dieser zwischen „Sprechen“ und „Zuhören“ frei wechseln kann, ganz ohne manuelle Umschaltung.

Er verfügt über zwei „Speicher“, die jeweils Aktionen beim „Sprechen“ und „Zuhören“ enthalten – wie zwei „Schatztruhen“, aus denen jederzeit die passenden Aktionen abgerufen werden können.

Er kann auch die Stimmung und Haltung des KI-Avatars an Ihren Sprachstil anpassen, um das Gespräch lebendiger und interessanter zu gestalten.

Schließlich verwendet es eine Technik namens „Diffusionsmodell“, um diese Bewegungen in flüssige, natürliche Animationen umzuwandeln, ohne jegliche Ruckler.

DyConv: Ein riesiger, „Klatsch und Tratsch“ voller Datensatz für Dialoge!

Um INFP, diese „Super-KI“, zu trainieren, haben die Forscher einen riesigen Datensatz für Dialoge namens DyConv zusammengestellt!

Dieser Datensatz enthält über 200 Stunden an Gesprächsvideos mit Menschen aus aller Welt, die über die unterschiedlichsten Themen sprechen – ein wahres „Klatsch- und Tratsch-Zentrum“.

Die Videos im DyConv-Datensatz sind von sehr hoher Qualität, sodass jedes Gesicht deutlich erkennbar ist.

Die Forscher haben außerdem ein hochmodernes Sprachseparationsmodell verwendet, um die einzelnen Stimmen zu extrahieren und das KI-Lernen zu erleichtern.

INFPs „十八般武艺“: Nicht nur Dialoge, sondern auch…

INFP glänzt nicht nur bei Dialogen, sondern auch in anderen Szenarien:

„Zuhören“-Modus (Listening Head Generation): Es kann je nach Gesprächsinhalt entsprechende Mimik und Gestik zeigen, wie ein „aufmerksamer Schüler“.

„Nachsprechen“-Modus (Talking Head Generation): Es kann anhand von Audiodaten realistische Mundbewegungen erzeugen, wie ein „Meister der Mundakrobatik“.

Um INFPs Leistungsfähigkeit zu demonstrieren, haben die Forscher zahlreiche Experimente durchgeführt, die gezeigt haben, dass:

INFP in verschiedenen Metriken andere vergleichbare Methoden übertrifft, z. B. in Bezug auf Videoqualität, Lippensynchronität und Bewegungsvielfalt.

Die Teilnehmer waren sich in Bezug auf die Benutzerfreundlichkeit einig, dass die von INFP generierten Videos natürlicher, lebendiger und besser auf die Audiodaten abgestimmt waren.

Die Forscher führten auch Ablationsexperimente durch, um zu beweisen, dass jeder Modul in INFP unerlässlich ist.

Projekt-Adresse: https://grisoon.github.io/INFP/