Vidu ist das erste chinesische Video-Großmodell mit langer Dauer, hoher Konsistenz und hoher Dynamik, das gemeinsam von Shēngshù Technologie und der Tsinghua-Universität entwickelt wurde. Das Modell verwendet die neuartige Architektur U-ViT, eine Fusion aus Diffusion und Transformer, und kann mit einem Klick hochauflösende Videoclips mit einer Dauer von bis zu 16 Sekunden und einer Auflösung von bis zu 1080p erzeugen. Vidu kann nicht nur die reale physikalische Welt simulieren, sondern verfügt auch über eine reiche Fantasie und zeichnet sich durch Merkmale wie die Erzeugung mehrerer Kameraperspektiven und zeitliche Konsistenz aus. Der schnelle Durchbruch basiert auf der langjährigen Erfahrung des Teams im Bereich Bayessches Maschinelles Lernen und multimodaler Großmodelle sowie auf mehreren originären Ergebnissen. Die Einführung von Vidu unterstreicht die kontinuierliche Innovationsfähigkeit und die führende Position von Shēngshù Technologie im Bereich multimodaler nativer Großmodelle. Zukunftsorientiert ermöglicht die flexible Architektur die Kompatibilität mit einer breiteren Palette von Modalitäten und erweitert so die Grenzen der multimodalen Universalität.