Top-Performance! Das Open-Source Step-Video-T2V Videogenerierungsmodell von Step-Star

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 2 Minuten Lesezeit · Feb 18, 2025

363

Heute geben Jieyue Xingchen und die Geely Auto Group die gemeinsame Open-Source-Veröffentlichung zweier multimodaler Step-Großmodelle der Step-Serie bekannt – das Step-Video-T2V-Videogenerierungsmodell und das Step-Audio-Sprachmodell.

Das Jieyue Step-Video-T2V-Videogenerierungsmodell gehört sowohl in Bezug auf die Parameteranzahl als auch auf die Leistung weltweit zu den führenden Modellen. Das Modell verfügt über 30 Milliarden Parameter und kann direkt hochwertige Videos mit 204 Frames und einer Auflösung von 540p generieren, um eine hohe Informationsdichte und Konsistenz der generierten Inhalte zu gewährleisten. Testergebnisse zeigen, dass Step-Video-T2V in Bezug auf Anweisungsbefolgung, Bewegungsglätte, physikalische Plausibilität und Ästhetik hervorragende Leistungen erbringt und die bestehenden besten Open-Source-Videomodelle deutlich übertrifft.

微信截图_20250218085337.png

Derzeit sind beide Modelle in der Yuewen-App verfügbar, damit Entwickler sie testen und wertvolles Feedback geben können.

Das Jieyue Step-Video-T2V-Videogenerierungsmodell zeigt herausragende generative Fähigkeiten in Bezug auf komplexe Bewegungen, ästhetische Figuren und visuelle Vorstellungskraft. Es kann Anweisungen präzise verstehen und Videokünstler effizient bei der kreativen Umsetzung unterstützen. Ob eleganter Ballett, intensiver Karate, spannender Badminton oder schnelles Turmspringen – Step-Video-T2V generiert realistische und physikalisch korrekte Bilder.

Darüber hinaus unterstützt es verschiedene Kamerabewegungen und Perspektivwechsel und kann visuelle Effekte mit starken Kamerafahrten erzeugen. Die generierten Figuren sind realistischer, lebendiger, detailreicher und mit natürlichen Gesichtsausdrücken.

GitHub:

https://github.com/stepfun-ai/Step-Audio

Hugging Face:

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

Technischer Bericht:

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

Step-Star Step-Video-T2V Geely Automobile Multimodales großes Sprachmodell

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

Alibaba Ovis-U1 präsentiert mit einem Schock: Multimodale AI-Dreifachintegration Open-Source-Enthusiasmus für Entwickler weltweit

Am 29. Juni 2025 gab das Alibaba International AI Team offiziell das neue multimodale Großmodell **Ovis-U1** bekannt und markierte damit einen weiteren bedeutenden Durchbruch in der multimodalen künstlichen Intelligenz. Als das neueste Werk der Ovis-Reihe vereint Ovis-U1 die Funktionen der multimodalen Verständnis, Bildgenerierung und Bildbearbeitung und zeigt starke Fähigkeiten zur Bearbeitung von multimodalen Daten. Dies bietet Entwicklern, Forschern und branchenspezifischen Anwendungen neue Möglichkeiten. Hier ist eine detaillierte Berichterstattung über Ovis-U1 von AIbase. Ovis-U1

Jun 30, 2025

Runway AI bringt mit großem Aufwand das Spielwelt-System heraus - ein großes interaktives Text-Abenteuer kommt

Kürzlich kündigte die AI-Technologie-Pionierfirma Runway an, ihre neue generative KI-Plattform "Game Worlds" zu veröffentlichen. Dieses innovative Produkt markiert nicht nur den Erfolg von Runway im Filmsektor, sondern erweitert auch in den Games-Bereich und bietet Kreativen und Spielern eine neue interaktive Erfahrung. Game Worlds: Interaktives Text-Abenteuer mit KI-gestützter Technologie. Die Plattform Game Worlds von Runway basiert auf generativer KI und ermöglicht es Benutzern, durch einfache Texteingaben Abenteuerspiele basierend auf Text zu erstellen und zu erleben. Im Gegensatz zu traditionellen

Jun 30, 2025

Ein Bild reicht aus, um einen viralen Video zu erstellen! MOKI 'KI-Kreativwerbung' ist zeitlich begrenzt kostenlos

Kürzlich hat ein KI-Videoerzeugungstool namens MOKI Aufmerksamkeit erregt. Die Funktion der 'KI-Kreativwerbung' ermöglicht es durch einfache Bedienung, Bilder in professionelle Videos umzuwandeln. Laut offiziellen Angaben benötigen die Nutzer keine Erfahrung im Schnitt oder komplexe Konzepte. Sie müssen lediglich ein Bild hochladen und eines der zeitlich begrenzten kostenlosen Vorlagen wie 'Produkt auspacken', 'Zu Pelz verwandeln', 'IP tanzen' auswählen, um schnell ein virales Video mit Film-ähnlichen Kamerafahrten zu erstellen.

Jun 30, 2025

Tongyi Qianwen veröffentlicht ein multimodales einheitliches Verständnis- und Generationsmodell Qwen VLo

Kürzlich wurde das multimodale Großmodell Qwen VLo offiziell veröffentlicht. Das Modell hat bedeutende Fortschritte bei der Bildinhaltserfassung und -generierung erzielt und bietet den Nutzern eine neue visuelle Kreativserfahrung. Laut Mitteilung baut Qwen VLo auf den Vorteilen der früheren Qwen-VL-Reihe auf und wurde umfassend aktualisiert. Dieses Modell kann nicht nur die Welt präzise verstehen, sondern auch hochwertige Neuschöpfungen basierend auf diesem Verständnis durchführen und somit einen echten Sprung von der Wahrnehmung zur Generierung ermöglichen. Nutzer können nun Qwen Chat (chat.qwen.ai) nutzen.

Jun 28, 2025

„AI-Tagesbericht vom 27. Juni“: Tencent öffnet Quellcode für leichten MixFormer-A13B-Modell; Qiling AI bietet Funktion für Video-Soundeffekte

Willkommen bei AIbase, der Serie „AI-Tagesbericht“! Informieren Sie sich in drei Minuten täglich über die wichtigsten Ereignisse im Bereich KI und helfen Sie dabei, den Trend der KI-Branche und innovative Anwendungen von KI-Produkten zu verstehen. Weitere KI-Nachrichten besuchen Sie unter: https://www.aibase.com/zh1. Tencent veröffentlicht ein leichtes MixFormer-A13B-Modell mit geringer Leistungsaufnahme, das auf einer einzigen mittelstarken GPU installiert werden kann. Tencent hat einen neuen Mitglied der MixFormer-Modellfamilie, MixFormer-A13B, veröffentlicht, das eine Experten-Mischarchitektur (MoE) verwendet. Die Gesamtparametergröße beträgt 80 Milliarden, davon sind 13 Milliarden aktiv.

Jun 27, 2025

Ein-Klick-Erstellung von viralen Videos! HeyGen AI-Video-Agent revolutioniert die Inhaltserschaffung!

Jun 27, 2025

Google stellt Doppl-App vor, um das virtuelle Probieren von Kleidung einfach zu machen

Kürzlich hat Google eine KI-Proberkleidungs-App namens Doppl offiziell vorgestellt, die es Benutzern ermöglichen soll, ein völlig neues Erlebnis des virtuellen Anprobierens zu genießen. Mit dieser App können Benutzer einfach ein vollständiges Foto von sich selbst hochladen und dann ihre Lieblingskleidung auswählen, um sie anzuprobieren. Ob diese Kleidung aus Secondhand-Läden, Freunden oder Bildern aus sozialen Medien stammt, kann alles leicht realisiert werden. Der Vorgang zur Nutzung von Doppl ist sehr einfach. Zuerst müssen Benutzer ein vollständiges Foto von sich selbst hochladen. Anschließend können sie durch Hochladen von Fotos oder Screenshots anderer Kleidung auf die App zugreifen.

Jun 27, 2025

Meta gewinnt Top-Forscher von OpenAI, Team für künstliche Überintelligenz erweitert sich um einen Star

Im zunehmenden Wettbewerb im Bereich KI hat Meta heute Morgen bekanntgegeben, dass es gelungen ist, den führenden Forscher Trapit Bansal von OpenAI zu gewinnen und in sein neu gegründetes Team für künstliche Überintelligenz zu integrieren. Laut Informationen von Techcrunch bestätigte der Sprecher von OpenAI, Kayla Wood, den Fortgang von Bansal. Auf seinem LinkedIn-Profil ist zu sehen, dass Bansal nicht mehr bei OpenAI beschäftigt ist.

Jun 27, 2025

Google legt ein großes Ass auf den Tisch! Gemini CLI wird Open Source veröffentlicht und bietet kostenlos einen AI-Programmierassistenten, um Cursor zu fordern

Google hat heute eine wichtige Veröffentlichung getätigt: Gemini CLI, ein Open-Source-Terminal-AI-Agent-Werkzeug, das direkt kommerzielle KI-Programmierwerkzeuge herausfordert. Das Projekt erhielt sofort auf GitHub über 9000 Sternchen und zeigte die starke Aufmerksamkeit der Entwicklergemeinschaft. Kostenlose Strategie verändert den Markt: Kostenloser Zugriff: Sie benötigen nur ein persönliches Google-Konto, um eine Lizenz für Gemini Code Assist zu erhalten. Top-Modell: Gratis zur Verfügung gestellt wird das Modell Gemini 2.5 Pro.

Jun 26, 2025

4D-LRM beeindruckende Markteinführung! KI-Neuheit zur räumlich-zwischenzeitlichen Rekonstruktion, ein Klick für beliebige Perspektiven und Zeiten

Jun 25, 2025

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick

Top-Performance! Das Open-Source Step-Video-T2V Videogenerierungsmodell von Step-Star

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Alibaba Ovis-U1 präsentiert mit einem Schock: Multimodale AI-Dreifachintegration Open-Source-Enthusiasmus für Entwickler weltweit

Runway AI bringt mit großem Aufwand das Spielwelt-System heraus - ein großes interaktives Text-Abenteuer kommt

Ein Bild reicht aus, um einen viralen Video zu erstellen! MOKI 'KI-Kreativwerbung' ist zeitlich begrenzt kostenlos

Tongyi Qianwen veröffentlicht ein multimodales einheitliches Verständnis- und Generationsmodell Qwen VLo

„AI-Tagesbericht vom 27. Juni“: Tencent öffnet Quellcode für leichten MixFormer-A13B-Modell; Qiling AI bietet Funktion für Video-Soundeffekte

Ein-Klick-Erstellung von viralen Videos! HeyGen AI-Video-Agent revolutioniert die Inhaltserschaffung!

Google stellt Doppl-App vor, um das virtuelle Probieren von Kleidung einfach zu machen

​Meta gewinnt Top-Forscher von OpenAI, Team für künstliche Überintelligenz erweitert sich um einen Star

Google legt ein großes Ass auf den Tisch! Gemini CLI wird Open Source veröffentlicht und bietet kostenlos einen AI-Programmierassistenten, um Cursor zu fordern

4D-LRM beeindruckende Markteinführung! KI-Neuheit zur räumlich-zwischenzeitlichen Rekonstruktion, ein Klick für beliebige Perspektiven und Zeiten

Meta gewinnt Top-Forscher von OpenAI, Team für künstliche Überintelligenz erweitert sich um einen Star