Heygen präsentiert Lippensynchronisations-Tool: Fotos und Audio reichen zum Sprechen und Singen

AIbase

Veröffentlicht amKI-Nachrichten und -Informationen · 3 Minuten Lesezeit · Jul 12, 2024

1.1k

Kürzlich hat die „Wiederbelebung“ von Fotos mithilfe von KI im Internet für Aufsehen gesorgt, und Heygen hat sich nun auch mit einem Lippensynchronisations-Tool in den Markt begeben.

Sie müssen lediglich ein Foto und eine Audiodatei hochladen, und die Person auf dem Foto kann dann den Audioinhalt sprechen, singen oder sogar vorlesen. Derzeit werden Audiodateien mit einer Länge von bis zu 20 Sekunden unterstützt, d. h., Sie können ein 20-sekündiges Video erstellen. Noch beeindruckender ist, dass das Tool die Hauptstimme erkennt und sicherstellt, dass Lippenbewegungen und Gesichtsausdrücke perfekt mit dem Audio synchronisiert sind.

Es gibt jedoch einen kleinen Wermutstropfen: Heygen scheint für Nutzer aus dem chinesischen Raum eine Hürde eingerichtet zu haben. Derzeit können Nutzer aus China sich weder anmelden noch ein neues Konto erstellen. Dies könnte viele Interessierte enttäuschen.

Davon abgesehen ist die Entwicklung von Heygen jedoch sehr vielversprechend. Im Juni dieses Jahres hat Heygen in einer Finanzierungsrunde 60 Millionen US-Dollar mit einer Bewertung von 500 Millionen US-Dollar eingesammelt. Die Finanzierungsrunde wurde von Benchmark angeführt, unterstützt von bekannten Investoren wie Conviction, Thrive Capital und Bond Capital. Im Rahmen der Transaktion wird Victor Lazarte, Partner bei Benchmark, dem Verwaltungsrat von Heygen beitreten.

Bisher hat Heygen insgesamt 74 Millionen US-Dollar eingesammelt. Das 2020 gegründete Startup-Unternehmen ist eines von vielen, die generative KI-Technologie nutzen, um Videos kostengünstiger und einfacher zu produzieren. Mit dem Tool von Heygen kann jeder realistische Avatare erstellen, mit seiner eigenen Stimme sprechen und sogar in mehrere Sprachen übersetzen.

Testversion: https://labs.heygen.com/guest/expressive-photo-avatar

KI-Nachrichten

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

Trae bringt eine starke Aktualisierung! Unterstützung für OpenAI o3 - Entdecken Sie eine neue Ära der KI-Codebearbeitung

Der AI-Code-Editor Trae von ByteDance kündigt die Unterstützung des neuesten o3-Modells von OpenAI an und bietet Entwicklern ein leistungsstärkeres intelligentes Programmiererlebnis. Das o3-Modell überzeugt durch herausragende logische Schlussfolgerungsfähigkeiten und die Fähigkeit, Werkzeuge effizient zu nutzen, und steigert die Genauigkeit der Codegenerierung und -debugging erheblich. Durch die Integration von o3 verfügt Trae über Funktionen wie intelligente Codegenerierung, kontextbewusste Debugging-Unterstützung und die Zusammenarbeit mit mehreren Tools. Es kann hochwertigen Code basierend auf einfachen Beschreibungen generieren und Fehler präzise identifizieren. Die Entwicklergemeinde reagiert begeistert und ist der Ansicht, dass dies die Programmiergeschwindigkeit deutlich verbessert. Trae legt zudem großen Wert auf den Schutz der Benutzerdaten.

Aug 1, 2025

Microsoft-Forschung enthüllt: 20 Berufe, die von KI weniger betroffen sind, darunter Masseure und Hausangestellte

Microsoft-Studie: Medizin- und Blaumann-Jobs am widerstandsfähigsten gegen KI. Analyse von 200.000 Nutzerdialogen zeigt, dass Jobs wie OP-Assistenten oder Baggerfahrer aufgrund körperlicher Arbeit und zwischenmenschlicher Interaktion schwer ersetzbar sind. 20 Berufe mit geringstem KI-Risiko identifiziert.....

Aug 1, 2025

DeepSeek Tochtergesellschaft veröffentlicht Patent für Innovationen im Einsatz großer Sprachmodelle und fördert die Weiterentwicklung der KI-Technologie

Die Tochtergesellschaft von DeepSeek hat ein Patent für die Implementierung großer Sprachmodelle öffentlich gemacht. Innovative Nutzung eines verteilten Architekturentwurfs: Die Vorverfüllungs- und Dekodierungsphasen werden jeweils auf Hochleistungsrechnern und Rechnern mit großem Speicher platziert. Dieser Ansatz gleicht die Last aus, reduziert Leerlaufzeiten bei der Berechnung und senkt die Verzögerung erheblich sowie erhöht die Durchsatzfähigkeit. Das Patent betont die Optimierung der Systemausbaufähigkeit und Fehlertoleranz. Das MoE-Sprachmodell DeepSeek-V3 verfügt über 671 Mrd. Parameter, wobei 37 Mrd. Parameter pro Token aktiviert werden. Es wird die Anwendung der KI-Technologie in verschiedenen Branchen vorantreiben. Der Kernspurt besteht darin, die Hardware-Ressourcen zusammenzubringen.

Aug 1, 2025

MOSS-TTSD revolutioniert die Open-Source-Welt: KI-Podcast mit Millionen Stunden Training zur Neuen Nummer Eins

Tsinghua Uni. veröffentlicht MOSS-TTSD, ein zweisprachiges Sprachgenerierungsmodell auf Qwen3-1.7B-Basis mit XY-Tokenizer für 1kbps Audio. Übertrifft MoonCast, unterstützt 960s Audio, Klonung und Kontrolle. Demo/API verfügbar.....

Aug 1, 2025

Musk präsentiert eine neue Funktion von Grok, die Benutzern ermöglicht, 6 Sekunden lange KI-Videos zu erstellen

xAIs Grok AI führt 'Imagine' ein, erzeugt 6-Sekunden-Videos mit Ton, inkl. expliziter Inhalte, was Deepfake-Bedenken auslöst. Teil von Grok4, bereits kontrovers wegen sexualisierter KI-Partner und antisemitischer Äußerungen. 84% der Amerikaner befürworten Gesetze gegen nicht einvernehmliche Deepfake-Pornografie. Experten warnen vor sexueller Ausbeutung, das Feature soll im Oktober starten.....

Aug 1, 2025

Google DeepMind stellt virtuelles Satelliten-KI-Modell AlphaEarth Foundations vor und verändert die globale Umweltüberwachung

DeepMind stellt AlphaEarth vor, ein KI-System mit 64D-Embedding für Satellitendaten (10m Auflösung). Verarbeitet 3 Mrd. Sentinel-2-Daten, reduziert Fehler um 24% in Umweltmonitoring. Jährlicher Datensatz mit 1,4 Bio. Embeddings geplant. 50+ Organisationen testen System u.a. für Regenwald-Monitoring.....

Aug 1, 2025

Abschied von der KI-Ästhetik! Black Forest Labs kooperiert mit Krea, um den FLUX.1-Krea-Modell open source zu machen und die natürliche Ästhetik der Bildgenerierung neu zu definieren

Black Forest Labs und Krea stellen FLUX.1-Krea vor, ein Open-Source-Bildgenerierungsmodell mit 12B Parametern, das künstliche Spuren reduziert und realistischere Bilder erzeugt. Kompatibel mit FLUX-Ökosystem, ideal für kommerzielle Anwendungen.....

Aug 1, 2025

Open-Source-KI-Surfer! Cogito v2 herausfordernd DeepSeek und Claude

Die in San Francisco ansässige KI-Startup Deep Cogito hat die Cogito v2-Serie von Open-Source-Modellen veröffentlicht, die auf maschinellem Wahrnehmung und Selbstverbesserungsfähigkeiten basieren. Die Serie umfasst vier dichte-/Misch-Expertenmodelle mit 70B bis 671B Parametern. Das Flaggschiff-Modell mit 671B MoE erreicht eine Rechengeschwindigkeit, die 60 % höher ist als bei DeepSeek R1, und die Leistung liegt nahe an Claude4Opus. Das zentrale Technologie ist es, durch introspektives Denken den Denkprozess in die Modellgewichte zu integrieren und so kontinuierliche Entwicklung während der Nutzung zu ermöglichen. Tests zeigen, dass dieses Modell in der Lage ist, mit

Aug 1, 2025

Poe-Plattform von Quora bietet Entwickler-API an und schafft ein neues Ökosystem für multimodale KI-Anwendungen

Poe bietet nun eine Entwickler-API mit Zugang zu über 100 KI-Modellen. Preise ab 4,99$/Monat oder 30$/Mio. Credits. Für Tools und Apps, Budgetverwaltung folgt.....

Aug 1, 2025

Singapur-Start-up SixSense für Halbleiter- KI erhält 8,5 Millionen Dollar Finanzierung

SixSense, ein auf Halbleiter-AI spezialisiertes Start-up aus Singapur, sammelte 8,5 Mio. USD (gesamt 12 Mio. USD) unter Führung von Peak XV ein. Das von Ingenieurinnen gegründete Unternehmen bietet eine No-Code-AI-Plattform, die Produktionsdaten in Echtzeit analysiert und bei GlobalFoundries bereits Zykluszeiten um 30% reduzierte. Mit der globalen Chipinvestitionswelle expandiert SixSense in die USA.....

Aug 1, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Heygen präsentiert Lippensynchronisations-Tool: Fotos und Audio reichen zum Sprechen und Singen

AIbase

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Trae bringt eine starke Aktualisierung! Unterstützung für OpenAI o3 - Entdecken Sie eine neue Ära der KI-Codebearbeitung

Microsoft-Forschung enthüllt: 20 Berufe, die von KI weniger betroffen sind, darunter Masseure und Hausangestellte

DeepSeek Tochtergesellschaft veröffentlicht Patent für Innovationen im Einsatz großer Sprachmodelle und fördert die Weiterentwicklung der KI-Technologie

MOSS-TTSD revolutioniert die Open-Source-Welt: KI-Podcast mit Millionen Stunden Training zur Neuen Nummer Eins

Musk präsentiert eine neue Funktion von Grok, die Benutzern ermöglicht, 6 Sekunden lange KI-Videos zu erstellen

Google DeepMind stellt virtuelles Satelliten-KI-Modell AlphaEarth Foundations vor und verändert die globale Umweltüberwachung

Abschied von der KI-Ästhetik! Black Forest Labs kooperiert mit Krea, um den FLUX.1-Krea-Modell open source zu machen und die natürliche Ästhetik der Bildgenerierung neu zu definieren

Open-Source-KI-Surfer! Cogito v2 herausfordernd DeepSeek und Claude

Poe-Plattform von Quora bietet Entwickler-API an und schafft ein neues Ökosystem für multimodale KI-Anwendungen

Singapur-Start-up SixSense für Halbleiter- KI erhält 8,5 Millionen Dollar Finanzierung