DeepMind項目MegaSaM :輸入普通視頻即可預估相機視角和景深,構建視頻場景
近日,谷歌深度學習團隊和多所大學的研究人員聯合發佈了一項名爲 “MegaSaM” 的新系統,該系統能夠從普通的動態視頻中快速、準確地估計相機參數和深度圖。這一技術的問世,將爲我們在日常生活中錄製的視頻帶來更多的可能性,特別是在動態場景的捕捉與分析方面。傳統的運動結構重建(Structure from Motion,SfM)和單目同步定位與地圖構建(SLAM)技術,通常需要輸入靜態場景的視頻,並且對視差的要求較高。面對動態場景,這些方法的表現往往不盡如人意,因爲在缺乏靜態背景的情況下