Das intelligente Kreativteam von ByteDance hat in Zusammenarbeit mit der Tsinghua-Universität einen Open-Source-Framework namens HuMo entwickelt, um den Fortschritt im Bereich der menschheitszentrierten Videoerzeugung (HCVG, Human-Centric Video Generation) voranzutreiben. Der HuMo-Framework verfügt über eine starke Fähigkeit zur Verarbeitung von multimodalen Eingaben und kann Text, Bilder und Audio gleichzeitig nutzen, um hochwertige Videos zu erzeugen.

Der Name des HuMo „Human-Modal“ spiegelt treffend das Konzept wider, auf Menschen und ihre Aktivitäten fokussiert zu sein. Der Erfolg dieses Frameworks liegt darin, dass es ein hochwertiges Datensatz erstellt hat und eine innovativen ansatz der schrittweisen Trainingsmethode verwendet. Diese Trainingsweise ermöglicht es HuMo, bei verschiedenen Unterprojekten die bestehenden spezialisierten Methoden zu übertreffen, um klare Videos mit einer Auflösung von 480P und 720P zu erzeugen, die bis zu 97 Frames lang sind und mit 25 Bildern pro Sekunde kontrollierte Personenvideos ausgeben.

image.png

Die zentralen Vorteile des Frameworks liegen in seiner innovativen Datenverarbeitungsprozess, flexiblen Inferenzstrategie und schrittweisen Multimodal-Trainingsmethode. Die Kombination dieser Technologien erhöht nicht nur die Qualität der generierten Videos, sondern auch die Verarbeitungsgeschwindigkeit, wodurch HuMo in der Praxis besser abschneidet.

Für Entwickler und Forscher ist HuMo nicht nur ein neues Werkzeug, sondern auch eine flexible Lösung, die unterschiedliche Szenarien bedienen kann. Die Open-Source-Adresse des Projekts ermöglicht es mehr Leuten, an der Forschung und Anwendung dieser Technologie teilzunehmen und neue Möglichkeiten für die zukünftige Multimodal-Videoerzeugung zu erkunden.

Paper-Link: https://arxiv.org/pdf/2509.08519