Digitale Avatare im Höhenflug! ByteDance Loopy-Lippensynchronisationsfunktion jetzt auf Jiemèng verfügbar – mit kontextbezogenen Emotionen und Ausdrücken

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 6 Minuten Lesezeit · Sep 23, 2024

2.3k

Erinnern Sie sich noch an Loopy, das neue ByteDance-Projekt, das Anfang des Monats für Aufsehen sorgte? Dieses Projekt, das die Stimme von digitalen Avataren perfekt mit Bildern, Mimik und Emotionen synchronisiert, ist jetzt offiziell auf Jimeng verfügbar.

AIbase hat es ausprobiert und die Ergebnisse sind sehr gut. Es ist wohl derzeit der beste Lipsync-Service für Chinesisch.

Früher hatten Lipsync-Videos oft ein gemeinsames Problem: Der Mund schien zwar zu passen, aber der Ton klang dennoch nicht so, als käme er von der Person, was zu einem Gefühl der Dissonanz beim Zuschauer führte.

Das von ByteDance und einem Forschungsteam der Zhejiang-Universität gemeinsam entwickelte, auf Audio basierende Videodiffusionsmodell LOOPY löst dieses Problem perfekt.

Im Gegensatz zu herkömmlichen Lipsync-Videos, bei denen nur der Mund bewegt wird, kann Loopy in Lipsync-Videos die Charaktere beim Sprechen oder Singen automatisch mit dem entsprechenden Ton, den Emotionen und der Mimik versehen. Es kann die Bewegungen virtueller Avatare präzise „steuern“, z. B. nicht-sprachliche Aktionen wie Seufzen, emotionsgesteuerte Augenbrauen- und Augenbewegungen sowie natürliche Kopfbewegungen.

Diese Funktion ist jetzt in das Videoerstellungsmodul von Jimeng, einem Produkt von ByteDance, integriert:

AIbase hat ein Foto eines Mädchens hochgeladen, um es zu testen.

Jimeng bietet derzeit zwei Möglichkeiten für die Lippensynchronisation:

1. Textvorlesung

文本朗读.jpg

Die Bedienung von Jimeng ist im Grunde sehr einfach. Sie müssen nur das Bild oder Video des Charakters hochladen, den Text eingeben und eine Stimme auswählen. AIbase hat hier eine Stimme einer coolen, selbstbewussten Frau gewählt. Das Testergebnis sieht wie folgt aus:

Man sieht, dass die Figur beim Sprechen auch subtile Gesichtsausdrücke zeigt, und die dynamischen Details wie die Nasolabialfalten wirken beim Sprechen recht realistisch.

2. Lokale Audiodatei hochladen

Sie können ihr nicht nur das Sprechen beibringen, sondern auch eine Audiodatei mit Gesang hochladen und sie singen lassen:

对口型，图片+本地配音.jpg

Hier hat AIbase einen kürzlich auf Douyin beliebten Auszug aus dem Lied „Ye Ren“ ausgewählt, um die Wirkung zu sehen:

Die Wirkung ist wirklich gut. Nicht nur die Lippenbewegung passt, sondern auch die Stimme wirkt nicht gespalten, als wäre es die Originalstimme des Mädchens.

Es gibt jedoch ein kleines Problem: Bei dem von AIbase gewählten Mädchenfoto schaut das Mädchen nicht in die Kamera, was möglicherweise die Immersion beeinträchtigt. Ich werde ein frontal aufgenommenes Foto verwenden:

Ist es jetzt besser? Außerdem schließt die Figur beim Singen die Augen und schüttelt den Kopf – sehr realistische Bewegungen.

AIbase hat auch eine Version mit einem männlichen Avatar getestet. Das Ergebnis sieht wie folgt aus:

Ist die Wirkung nicht beeindruckend? AIbase war besonders überrascht, dass bei der Lippensynchronisation auch sehr feine Details wie der Adamsapfel und die Augenbrauen berücksichtigt werden. Das macht das gesamte Video realistischer.

Interessierte können es selbst ausprobieren!

Jimeng-Produktzugang: https://top.aibase.com/tool/jimeng

Dou Bao-Modell von Bytedance: Tägliche Aufrufe über 30 Billionen Tokens, beeindruckende Wachstumsrate!

Der Präsident von Volcano Engine, Tan Dai, gab bekannt, dass die Nutzung des Doubao-Modells von 120 Mrd. Tokens im Mai 2024 auf über 30 Bio. Tokens im September 2025 gestiegen ist, ein Anstieg um das 253-fache. Dies zeigt das schnelle Wachstum und das große Anwendungspotenzial in verschiedenen Branchen.....

Ab 99.000 Yuan! Unitree Technology veröffentlicht neuen Video-Clip des G1-Roboters mit außergewöhnlicher Sturzfestigkeit

Unitree Technology veröffentlicht einen Video-Clip, der die neuen Fähigkeiten des humanoiden Roboters Unitree G1 zeigt. Der G1 erleidet während Tänzen und Kung-Fu-Aufführungen mehrere äußere Stöße, wie beispielsweise Tritte, Seitenstöße und Schubs von einem Stuhl, und behält dennoch eine hervorragende Balance, wodurch kontinuierliche Flips möglich sind. Die offizielle Mitteilung besagt, dass ein neuer „Anti-Gravity“-Modus hinzugefügt wurde, der die Stabilität bei jedem Bewegungsablauf erheblich verbessert und die Widerstandsfähigkeit gegen Störungen stärkt.

Meta führt einen KI-Assistenten für Facebook Dating ein, um das soziale Erlebnis zu verändern

Meta hat angekündigt, einen KI-Assistenten für Facebook Dating einzuführen, der Benutzern bei der präzisen Suche und Optimierung ihrer Profilbilder hilft. Der Assistent kann gezielt Kontakte vorschlagen, wie beispielsweise "eine Frau aus Brooklyn im Technologiebereich", und die Anziehungskraft der Profilbilder erhöhen, was den Wettbewerb in der KI-App-Bereich verstärkt.

Revolutioniert die Tradition! Mini-o3, ein Open-Source-Modell, ermöglicht eine sehr lange visuelle Schlussfolgerung – tiefe Denkprozesse sind kein Problem mehr

Kürzlich haben ByteDance und die University of Hong Kong ein neues Open-Source-Visuelles Schlussfolgerungsmodell namens Mini-o3 vorgestellt, was einen weiteren bedeutenden Durchbruch in der Technologie der mehrschrittigen visuellen Schlussfolgerung darstellt. Im Gegensatz zu früheren visuellen Sprachmodellen (VLM), die nur 1-2 Schritte im Dialog verarbeiten konnten, hat Mini-o3 während des Trainings die Anzahl der Dialogschritte auf 6 beschränkt, kann jedoch während des Tests die Anzahl der Schlussfolgerungsschritte auf mehrere Dutzend erhöhen und somit die Fähigkeit zur Bearbeitung visueller Fragestellungen erheblich verbessern. Die Stärke von Mini-o3 besteht darin, dass es bei anspruchsvollen visuellen Suchaufgaben tiefes Schließen erreichen konnte.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Digitale Avatare im Höhenflug! ByteDance Loopy-Lippensynchronisationsfunktion jetzt auf Jiemèng verfügbar – mit kontextbezogenen Emotionen und Ausdrücken

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

AI-Tagesbericht: ByteDance veröffentlicht den großes Modell Douba 1.6; Aishitechnology schließt eine Finanzierungsrunde im Wert von 100 Millionen Yuan ab; Baidu veröffentlicht das Dokumentenanalysenmodell PaddleOCR-VL

ByteDance veröffentlicht Douyin-Modell 1.6: Das erste inländische Modell mit einstellbarer Denkzeit

Dou Bao-Modell von Bytedance: Tägliche Aufrufe über 30 Billionen Tokens, beeindruckende Wachstumsrate!

Mercedes bittet ByteDance, gemeinsam einen neuen reinen Elektro-CLA mit dem Doucheng-Modell aufzubauen

Der große Motion-Capture-Anbieter Noitom dringt in den Robotermarkt ein: Einzelne Datenbusiness-Abteilung zielt auf einen Milliardenmarkt ab, renommierte Fachleute von Tencent und ByteDance sind dabei

Ab 99.000 Yuan! Unitree Technology veröffentlicht neuen Video-Clip des G1-Roboters mit außergewöhnlicher Sturzfestigkeit

Meta führt einen KI-Assistenten für Facebook Dating ein, um das soziale Erlebnis zu verändern

AI-Tagesbericht: Meituan veröffentlicht ein Inferenz-Größemodell LongCat-Flash-Thinking; Alibaba Wan-Animate ist Open Source; ByteDance präsentiert das Übersetzungsmodell Douba

ByteDance stellt den Doubao-Übersetzungsgroßmodell vor: 28 Sprachen können miteinander übersetzt werden, vergleichbar mit GPT-4o

Revolutioniert die Tradition! Mini-o3, ein Open-Source-Modell, ermöglicht eine sehr lange visuelle Schlussfolgerung – tiefe Denkprozesse sind kein Problem mehr

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Digitale Avatare im Höhenflug! ByteDance Loopy-Lippensynchronisationsfunktion jetzt auf Jiemèng verfügbar – mit kontextbezogenen Emotionen und Ausdrücken

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

AI-Tagesbericht: ByteDance veröffentlicht den großes Modell Douba 1.6; Aishitechnology schließt eine Finanzierungsrunde im Wert von 100 Millionen Yuan ab; Baidu veröffentlicht das Dokumentenanalysenmodell PaddleOCR-VL

ByteDance veröffentlicht Douyin-Modell 1.6: Das erste inländische Modell mit einstellbarer Denkzeit

Dou Bao-Modell von Bytedance: Tägliche Aufrufe über 30 Billionen Tokens, beeindruckende Wachstumsrate!

Mercedes bittet ByteDance, gemeinsam einen neuen reinen Elektro-CLA mit dem Doucheng-Modell aufzubauen

Der große Motion-Capture-Anbieter Noitom dringt in den Robotermarkt ein: Einzelne Datenbusiness-Abteilung zielt auf einen Milliardenmarkt ab, renommierte Fachleute von Tencent und ByteDance sind dabei

Ab 99.000 Yuan! Unitree Technology veröffentlicht neuen Video-Clip des G1-Roboters mit außergewöhnlicher Sturzfestigkeit

Meta führt einen KI-Assistenten für Facebook Dating ein, um das soziale Erlebnis zu verändern

AI-Tagesbericht: Meituan veröffentlicht ein Inferenz-Größemodell LongCat-Flash-Thinking; Alibaba Wan-Animate ist Open Source; ByteDance präsentiert das Übersetzungsmodell Douba

ByteDance stellt den Doubao-Übersetzungsgroßmodell vor: 28 Sprachen können miteinander übersetzt werden, vergleichbar mit GPT-4o

Revolutioniert die Tradition! Mini-o3, ein Open-Source-Modell, ermöglicht eine sehr lange visuelle Schlussfolgerung – tiefe Denkprozesse sind kein Problem mehr

GEO Services