Byte-OMNIHUMAN-1.5 jetzt mit einem Bild + Audio zu einem sehr realistischen Video! Der AI-Digital-Clon wird erneut weiterentwickelt!

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 6 Minuten Lesezeit · Aug 28, 2025

Kürzlich hat das Digital-Charakter-Team von ByteDance den vielversprechenden OmniHuman-1.5 vorgestellt, eine überarbeitete Version seines Vorgängers OmniHuman-1. Dieses neue multimodale Digital-Charakter-System löste erneut eine Welle im Bereich der KI-Videogenerierung aus. OmniHuman-1.5 generiert hochrealistische dynamische Videos durch die Kombination einer einzelnen Bild- und Audioeingabe. Es verbessert nicht nur die Koordination der Bewegungen und die Darstellung, sondern fügt auch mehrere innovative Funktionen hinzu, die in Bereichen wie Filmproduktion, virtuelle Moderatoren, Bildung und Werbung neue Möglichkeiten eröffnen.

Projektadresse: https://omnihuman-lab.github.io/v1_5/

Technische Verbesserungen: Erhebliche Steigerung der Realismus und Generalisierbarkeit

OmniHuman-1.5 baut auf der Kerntechnologie seines Vorgängers auf und generiert lebendige Charaktervideos aus einer einzelnen Bild- und Audioeingabe. Im Vergleich zur vorherigen Generation erreicht OmniHuman-1.5 eine deutlich höhere Realismus und Generalisierbarkeit. Dank der optimierten multimodalen Bewegungsbedingungs-Mischtrainingsstrategie des ByteDance-Teams sind die generierten Videos in Bezug auf natürliche Bewegungen, Lippenbewegungen und emotionale Ausdrücke noch präziser und realistischer. Ob bei echten Personen oder animierten Figuren – OmniHuman-1.5 kann dynamische Effekte liefern, die sich perfekt an den Audioinhalt anpassen und eine sehr hohe visuelle Qualität zeigen.

Neuheiten: Doppelte Szenen und lange Videos

Die Unterstützung für zweiköpfige Audioantriebe ist eine Stärke von OmniHuman-1.5. Traditionelle KI-Videogenerierungstechnologien beschränken sich meist auf Einzel-Szenen, während OmniHuman-1.5 erstmals eine Videoerzeugung basierend auf zweiköpfigen Audioeingaben ermöglicht. Es kann präzise Interaktionen und Ausdrücke zwischen mehreren Rollen erfassen und so technische Unterstützung für Multirollenszenen bereitstellen. Darüber hinaus kann das System Videos mit einer Länge von mehr als einer Minute generieren und durch strategische Verknüpfung zwischen Frames die Kontinuität und Identitätskonsistenz langer Videos sicherstellen, um komplexere Anforderungen zu erfüllen, z. B. bei Redevideos oder Musik-MVs.

Emotionserkennung und Textvorgaben: Intelligentere kreative Erfahrung

OmniHuman-1.5 geht nicht nur mechanisch auf Bewegungen ein, sondern kann auch Emotionen in der Audioeingabe erkennen und sie im Video darstellen. Zum Beispiel passt das System automatisch Gesichtsausdrücke und Körpersprache an, basierend auf der Tonlage und Stimmung des Audios, um das Video emotionaler zu machen. Zudem ermöglicht die neu hinzugefügte Textvorgaben-Funktion dem Benutzer, den Videoinhalt durch Textbeschreibungen weiter zu personalisieren, z. B. um den Stil der Szene oder Details der Bewegung festzulegen, was Kreativen größere Flexibilität bietet.

Unterschiedliche Stile: Vollständige Abdeckung von Realpersonen und Nicht-Realpersonen

Außerhalb der Darstellung von Realpersonen zeigt OmniHuman-1.5 besonders gute Ergebnisse bei der Bearbeitung von Nicht-Realpersonen (wie Animationsfiguren, 3D-Cartoons). Das System kann die natürliche Konsistenz der Bewegungen unter verschiedenen Kunststilen beibehalten und sorgt dafür, dass Lippenbewegungen und Bewegungen perfekt mit dem Audio synchronisiert werden. Diese Eigenschaft macht es ideal für Spiel-, Virtual Reality (VR)- und Augmented Reality (AR)-Szenarien und bietet den Nutzern ein immersives Erlebnis.

Breite Anwendung: Ermächtigung der Inhaltsproduktion in verschiedenen Branchen

Das Anwendungspotenzial von OmniHuman-1.5 ist beeindruckend. In der Filmproduktion kann es für Charakteranimation und Effekte verwendet werden, um schnell Videos virtueller Schauspieler zu generieren, die mit dem Audio synchronisiert sind. In virtuellen Moderatoren und Unterhaltungsszenarien können Kreative damit lebendige Charaktere generieren und die Interaktivität im Live-Streaming verbessern. In Bildung und Ausbildung kann OmniHuman-1.5 lebendige Unterrichtsvideos mit dynamischer Körpersprache erstellen, um die Attraktivität und Verständlichkeit der Inhalte zu steigern. In Werbung und Marketing können maßgeschneiderte digitale Charaktere Markenwerbung unterstützen und die Konversionsrate erheblich steigern.

Technische Zukunft und Herausforderungen

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Das Sprachteam von Douyin stellt eine vollautomatische AI-Mehrpersonen-Hörspiel-Produktionsmethode vor, die Romane automatisch in Mehrpersonen-Sprecherspiele umwandeln kann. Die Genauigkeit der Rollenerkennung erreicht 98 % und ist mit dem Niveau professioneller Hörspiele vergleichbar, wodurch die Effizienz der Produktion von AI-Hörinhalten erheblich gesteigert wird.

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

Qualcomm hat zwei Cloud-AI-Inferring-Chips, AI200 und AI250, vorgestellt und plant deren kommerzielle Nutzung im Jahr 2026 bzw. 2027. Dies markiert den Übergang von Endgeräte-Chips zu einer vollständigen AI-Infrastruktur. Die Nachricht führte zu einem Anstieg des Aktienkurses um mehr als 20% an einem Tag und ist der größte Anstieg seit 2019. Im Gegensatz zur allseitigen Strategie von Nvidia konzentriert sich Qualcomm auf den Markt für große Modell-Inferring und betont die Vorteile der Energieeffizienz und Kosten.

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Bei der GTC-Messe 2025 stellte NVIDIA das Designkonzept 'Omniverse DSX Blueprint' für gigawattgroße AI-Rechenzentren vor und bezeichnete es als 'AI-Fabrik'. Dieses Konzept basiert auf dem Omniverse-Framework und unterstützt verschiedene Größen von 100 Millionen bis 1 Milliarde Watt. Es soll die effiziente Ausbildung und Ausführung großer KI-Modelle ermöglichen und den wachsenden Anforderungen an KI-Berechnungen gerecht werden. Es handelt sich um einen wichtigen Fortschritt in der Infrastruktur für künstliche Intelligenz.

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Das Doubao-Stimme-Team hat eine "automatisierte Produktion für AI-Mehrpersonen-Audio-Serien" vorgestellt, die die gesamte Produktionskette vom Roman-Text bis zum fertigen Hörspiel vollständig automatisiert. Keine Stimmenaufnahme, Schnitt oder menschliche Intervention erforderlich, was zu erheblichen Kosteneinsparungen und Effizienzsteigerungen führt. Das Ergebnis ist nahe an professionelles Niveau, wobei die Präzision der Rollenerkennung 98 % erreicht.

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

Ehemaliger Leiter der AI-Produkte bei ByteDance, Liu Liaoqian, gründete das Unternehmen 'Extremes Kontext' und konzentriert sich auf die Entwicklung eines Marketing-Multimodal-Agents. Dank seiner reichen Erfahrung im Bereich AIGC schloss er schnell eine Finanzierungsrunde von mehreren Millionen Dollar ab. Liu Liaoqian arbeitete zuvor bei Tencent und ByteDance und beschäftigte sich seit 2019 mit AIGC-Technologien, was Aufmerksamkeit in der Branche erregte.

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

Die 360 Gruppe veröffentlichte eine unternehmensrelevante Intelligenzplattform und stellte das weltweit erste Intelligenz-Betriebssystem vor, das L2 bis L4 abdeckt. Zudem wurde die SEAF-Intelligenzfabrik aktualisiert. Die Plattform zielt darauf ab, Regierungen und Unternehmen mit einer einheitlichen AI-Lösung zu versorgen und die Implementierung der Industrieanpassung von "0 auf 1" zu "1 auf 10" zu fördern.

Huang Renxun widerspricht der Theorie des AI-Blasen, NVIDIA's neue Chips werden voraussichtlich 500 Milliarden Dollar Umsatz erzielen

Der CEO von NVIDIA, Huang Renxun, lehnte die Theorie des AI-Markt-Blasen auf der GTC-Konferenz in Washington ab und erwartet, dass die neuen Blackwell- und Rubin-Chips in den nächsten Quartalen 500 Milliarden Dollar Umsatz erzeugen werden und damit eine neue Wachstumsphase für das Unternehmen einleiten. Dies ist die erste GTC-Konferenz, die NVIDIA in der US-Hauptstadt veranstaltet.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Byte-OMNIHUMAN-1.5 jetzt mit einem Bild + Audio zu einem sehr realistischen Video! Der AI-Digital-Clon wird erneut weiterentwickelt!

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

Huang Renxun widerspricht der Theorie des AI-Blasen, NVIDIA's neue Chips werden voraussichtlich 500 Milliarden Dollar Umsatz erzielen

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

Huang Renxun widerspricht der Theorie des AI-Blasen, NVIDIA's neue Chips werden voraussichtlich 500 Milliarden Dollar Umsatz erzielen

GEO Services