豆包:視頻生成模型 “VideoWorld” 已開源 實現純視覺學習
據豆包大模型團隊官方公衆號消息,在北京交通大學和中國科學技術大學的聯合研究下,由豆包大模型團隊提出的 “VideoWorld” 視頻生成實驗模型近日正式開源。這個模型的最大亮點在於,它不再依賴傳統的語言模型,而是僅憑視覺信息就能認知和理解世界。這一突破性的研究靈感來源於李飛飛教授在 TED 演講中提到的 “幼兒可以不依靠語言理解真實世界” 的理念。“VideoWorld” 通過分析和處理大量視頻數據,實現了複雜的推理、規劃和決策能力。研究團隊的實驗顯示,模型在僅有300M 參