Forscher der University of California, Berkeley, haben kürzlich das Large World Model (LWM) als Open-Source-Projekt veröffentlicht. Dieses Modell ist in der Lage, gleichzeitig eine Million Datenpunkte zu verarbeiten und kann Videos und Bilder aus Text generieren. Durch die Ring Attention-Technik wird das Problem der Berechnung der Aufmerksamkeit bei langen Sequenzen gelöst, was eine effiziente Verarbeitung multimodaler Informationen ermöglicht. Nach einem zweistufigen Trainingsprozess, bestehend aus der Vorabtrainierung eines Sprachmodells und der anschließenden multimodalen Vorabtrainierung, wurden bemerkenswerte Ergebnisse erzielt.