Forscher der University of California, Berkeley, haben kürzlich das Large World Model (LWM) als Open-Source-Projekt veröffentlicht. Dieses Modell ist in der Lage, gleichzeitig eine Million Datenpunkte zu verarbeiten und kann Videos und Bilder aus Text generieren. Durch die Ring Attention-Technik wird das Problem der Berechnung der Aufmerksamkeit bei langen Sequenzen gelöst, was eine effiziente Verarbeitung multimodaler Informationen ermöglicht. Nach einem zweistufigen Trainingsprozess, bestehend aus der Vorabtrainierung eines Sprachmodells und der anschließenden multimodalen Vorabtrainierung, wurden bemerkenswerte Ergebnisse erzielt.
Großweltmodell: KI-generierte Videos und Bilder, 1 Million Daten auf einmal interpretiert
AIGC开放社区
Dieser Artikel stammt aus dem AIbase-Tagesbericht
Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.





