Heute geben Jieyue Xingchen und die Geely Auto Group die gemeinsame Open-Source-Veröffentlichung zweier multimodaler Step-Großmodelle der Step-Serie bekannt – das Step-Video-T2V-Videogenerierungsmodell und das Step-Audio-Sprachmodell.
Das Jieyue Step-Video-T2V-Videogenerierungsmodell gehört sowohl in Bezug auf die Parameteranzahl als auch auf die Leistung weltweit zu den führenden Modellen. Das Modell verfügt über 30 Milliarden Parameter und kann direkt hochwertige Videos mit 204 Frames und einer Auflösung von 540p generieren, um eine hohe Informationsdichte und Konsistenz der generierten Inhalte zu gewährleisten. Testergebnisse zeigen, dass Step-Video-T2V in Bezug auf Anweisungsbefolgung, Bewegungsglätte, physikalische Plausibilität und Ästhetik hervorragende Leistungen erbringt und die bestehenden besten Open-Source-Videomodelle deutlich übertrifft.
Derzeit sind beide Modelle in der Yuewen-App verfügbar, damit Entwickler sie testen und wertvolles Feedback geben können.
Das Jieyue Step-Video-T2V-Videogenerierungsmodell zeigt herausragende generative Fähigkeiten in Bezug auf komplexe Bewegungen, ästhetische Figuren und visuelle Vorstellungskraft. Es kann Anweisungen präzise verstehen und Videokünstler effizient bei der kreativen Umsetzung unterstützen. Ob eleganter Ballett, intensiver Karate, spannender Badminton oder schnelles Turmspringen – Step-Video-T2V generiert realistische und physikalisch korrekte Bilder.
Darüber hinaus unterstützt es verschiedene Kamerabewegungen und Perspektivwechsel und kann visuelle Effekte mit starken Kamerafahrten erzeugen. Die generierten Figuren sind realistischer, lebendiger, detailreicher und mit natürlichen Gesichtsausdrücken.
GitHub:
https://github.com/stepfun-ai/Step-Audio
Hugging Face:
https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
Technischer Bericht:
https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf