Metas KI-System MoCha: Text wird im Handumdrehen zu lebensechten Animationsfiguren mit natürlicher Lippen- und Körpersynchronisation

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 5 Minuten Lesezeit · Apr 2, 2025

Forscher von Meta und der Universität Waterloo haben kürzlich gemeinsam ein neues KI-System namens MoCha vorgestellt, das aus einfachen Textbeschreibungen vollständige Animationsfiguren mit synchronisierter Sprache und natürlichen Bewegungen generieren kann.

Diese innovative Technologie verspricht, die Effizienz und Ausdruckskraft der Inhaltserstellung erheblich zu steigern und in verschiedenen Bereichen ein enormes Anwendungspotenzial zu bieten.

Traditionelle Methoden überholt: Ganzkörperanimation und präzise Lippensynchronisation

Im Gegensatz zu bisherigen KI-Modellen, die sich auf Gesichtsausdrücke konzentrierten, zeichnet sich MoCha durch die Fähigkeit aus, natürliche Ganzkörperbewegungen zu rendern. Ob aus der Nähe oder aus halber Distanz aufgenommen, generiert das System anhand des Textinhalts detaillierte Bewegungen, einschließlich Lippensynchronisation, Gestik und Interaktionen zwischen mehreren Charakteren. Frühe Demos konzentrierten sich hauptsächlich auf den Oberkörper und zeigten, wie das System die Lippenbewegungen der Figur präzise auf den Dialog abstimmt und die Körpersprache natürlich mit der Bedeutung des Textes übereinstimmt.

Um eine präzisere Lippensynchronisation zu erreichen, führte das Forschungsteam einen neuartigen „Audio-Video-Fenster-Aufmerksamkeits“-Mechanismus ein. Dieser Mechanismus löst effektiv zwei langjährige Herausforderungen bei der KI-Videogenerierung: die Informationskompression während der Videoverarbeitung bei gleichzeitiger Aufrechterhaltung der vollständigen Audioauflösung und die bei der parallelen Videogenerierung leicht auftretenden Lippenbewegungsfehler. Das Kernprinzip besteht darin, jede Einzelbild nur auf einen bestimmten Bereich der Audiodaten zugreifen zu lassen. Diese Methode ahmt die Funktionsweise der menschlichen Sprache nach – die Mundbewegungen hängen vom unmittelbaren Klang ab, während die Körpersprache dem breiteren Textmuster folgt. Durch das Hinzufügen von Markierungen vor und nach jedem Audio-Frame erzeugt MoCha flüssigere Übergänge und eine genauere Lippensynchronisation.

Einfache Verwaltung mehrerer Charaktere, effizientes und übersichtliches Prompt-System

Bei der Bearbeitung von Szenen mit mehreren Charakteren hat das MoCha-Team ein einfaches und effizientes Prompt-System entwickelt. Benutzer müssen die Charakterinformationen nur einmal definieren und können diese Charaktere dann über einfache Tags (z. B. „Person1“, „Person2“) in verschiedenen Szenen wiederverwenden. Dies vermeidet den mühsamen Prozess der wiederholten Beschreibung von Charakteren und vereinfacht die Erstellung von Animationen mit mehreren Charakteren erheblich.

Überragende Leistung, übertrifft vergleichbare Systeme

In Tests mit 150 verschiedenen Szenarien übertraf MoCha vergleichbare Systeme sowohl in Bezug auf die Lippensynchronisation als auch auf die Qualität der natürlichen Bewegungen. Unabhängige Gutachter lobten die Realitätsnähe der von MoCha generierten Videos. Die Testergebnisse zeigen, dass MoCha in allen Kennzahlen seine Konkurrenz übertrifft.

Das Meta-Forschungsteam sieht für MoCha ein enormes Anwendungspotenzial in Bereichen wie digitale Assistenten, virtuelle Avatare, Werbung und Bildungsinhalte. Ob das System Open Source sein wird oder als Forschungsprototyp verbleibt, wurde von Meta jedoch noch nicht bekannt gegeben. Es ist erwähnenswert, dass die Entwicklung von MoCha in eine Zeit fällt, in der große Social-Media-Unternehmen um die Entwicklung von KI-gestützter Videotechnologie wetteifern.

Zuvor hatte Meta bereits MovieGen vorgestellt, und die Muttergesellschaft von TikTok, ByteDance, entwickelt aktiv eigene KI-Animationssysteme, darunter INFP, OmniHuman-1 und Goku. Dieser Wettlauf um KI-Videotechnologie wird zweifellos die Weiterentwicklung und Verbreitung der entsprechenden Technologien beschleunigen.

Projektseite: https://top.aibase.com/tool/mocha

Trae bringt eine starke Aktualisierung! Unterstützung für OpenAI o3 - Entdecken Sie eine neue Ära der KI-Codebearbeitung

Der AI-Code-Editor Trae von ByteDance kündigt die Unterstützung des neuesten o3-Modells von OpenAI an und bietet Entwicklern ein leistungsstärkeres intelligentes Programmiererlebnis. Das o3-Modell überzeugt durch herausragende logische Schlussfolgerungsfähigkeiten und die Fähigkeit, Werkzeuge effizient zu nutzen, und steigert die Genauigkeit der Codegenerierung und -debugging erheblich. Durch die Integration von o3 verfügt Trae über Funktionen wie intelligente Codegenerierung, kontextbewusste Debugging-Unterstützung und die Zusammenarbeit mit mehreren Tools. Es kann hochwertigen Code basierend auf einfachen Beschreibungen generieren und Fehler präzise identifizieren. Die Entwicklergemeinde reagiert begeistert und ist der Ansicht, dass dies die Programmiergeschwindigkeit deutlich verbessert. Trae legt zudem großen Wert auf den Schutz der Benutzerdaten.

Microsoft-Forschung enthüllt: 20 Berufe, die von KI weniger betroffen sind, darunter Masseure und Hausangestellte

Microsoft-Studie: Medizin- und Blaumann-Jobs am widerstandsfähigsten gegen KI. Analyse von 200.000 Nutzerdialogen zeigt, dass Jobs wie OP-Assistenten oder Baggerfahrer aufgrund körperlicher Arbeit und zwischenmenschlicher Interaktion schwer ersetzbar sind. 20 Berufe mit geringstem KI-Risiko identifiziert.....

DeepSeek Tochtergesellschaft veröffentlicht Patent für Innovationen im Einsatz großer Sprachmodelle und fördert die Weiterentwicklung der KI-Technologie

Die Tochtergesellschaft von DeepSeek hat ein Patent für die Implementierung großer Sprachmodelle öffentlich gemacht. Innovative Nutzung eines verteilten Architekturentwurfs: Die Vorverfüllungs- und Dekodierungsphasen werden jeweils auf Hochleistungsrechnern und Rechnern mit großem Speicher platziert. Dieser Ansatz gleicht die Last aus, reduziert Leerlaufzeiten bei der Berechnung und senkt die Verzögerung erheblich sowie erhöht die Durchsatzfähigkeit. Das Patent betont die Optimierung der Systemausbaufähigkeit und Fehlertoleranz. Das MoE-Sprachmodell DeepSeek-V3 verfügt über 671 Mrd. Parameter, wobei 37 Mrd. Parameter pro Token aktiviert werden. Es wird die Anwendung der KI-Technologie in verschiedenen Branchen vorantreiben. Der Kernspurt besteht darin, die Hardware-Ressourcen zusammenzubringen.

Musk präsentiert eine neue Funktion von Grok, die Benutzern ermöglicht, 6 Sekunden lange KI-Videos zu erstellen

xAIs Grok AI führt 'Imagine' ein, erzeugt 6-Sekunden-Videos mit Ton, inkl. expliziter Inhalte, was Deepfake-Bedenken auslöst. Teil von Grok4, bereits kontrovers wegen sexualisierter KI-Partner und antisemitischer Äußerungen. 84% der Amerikaner befürworten Gesetze gegen nicht einvernehmliche Deepfake-Pornografie. Experten warnen vor sexueller Ausbeutung, das Feature soll im Oktober starten.....

Google DeepMind stellt virtuelles Satelliten-KI-Modell AlphaEarth Foundations vor und verändert die globale Umweltüberwachung

DeepMind stellt AlphaEarth vor, ein KI-System mit 64D-Embedding für Satellitendaten (10m Auflösung). Verarbeitet 3 Mrd. Sentinel-2-Daten, reduziert Fehler um 24% in Umweltmonitoring. Jährlicher Datensatz mit 1,4 Bio. Embeddings geplant. 50+ Organisationen testen System u.a. für Regenwald-Monitoring.....

Open-Source-KI-Surfer! Cogito v2 herausfordernd DeepSeek und Claude

Die in San Francisco ansässige KI-Startup Deep Cogito hat die Cogito v2-Serie von Open-Source-Modellen veröffentlicht, die auf maschinellem Wahrnehmung und Selbstverbesserungsfähigkeiten basieren. Die Serie umfasst vier dichte-/Misch-Expertenmodelle mit 70B bis 671B Parametern. Das Flaggschiff-Modell mit 671B MoE erreicht eine Rechengeschwindigkeit, die 60 % höher ist als bei DeepSeek R1, und die Leistung liegt nahe an Claude4Opus. Das zentrale Technologie ist es, durch introspektives Denken den Denkprozess in die Modellgewichte zu integrieren und so kontinuierliche Entwicklung während der Nutzung zu ermöglichen. Tests zeigen, dass dieses Modell in der Lage ist, mit

Singapur-Start-up SixSense für Halbleiter- KI erhält 8,5 Millionen Dollar Finanzierung

SixSense, ein auf Halbleiter-AI spezialisiertes Start-up aus Singapur, sammelte 8,5 Mio. USD (gesamt 12 Mio. USD) unter Führung von Peak XV ein. Das von Ingenieurinnen gegründete Unternehmen bietet eine No-Code-AI-Plattform, die Produktionsdaten in Echtzeit analysiert und bei GlobalFoundries bereits Zykluszeiten um 30% reduzierte. Mit der globalen Chipinvestitionswelle expandiert SixSense in die USA.....

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Metas KI-System MoCha: Text wird im Handumdrehen zu lebensechten Animationsfiguren mit natürlicher Lippen- und Körpersynchronisation

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten