北京智源人工智能研究院宣佈推出原生多模態世界模型Emu3。這一模型基於下一個token預測技術,無需依賴擴散模型或組合方法,就能夠完成文本、圖像、視頻三種模態數據的理解和生成。Emu3在圖像生成、視頻生成、視覺語言理解等任務中超過了現有的知名開源模型,如SDXL、LLaVA、OpenSora等,展現了卓越的性能。
Compumacy
Open-Sora是一個開源的高效視頻生成項目,致力於讓先進的視頻生成技術對所有人開放。