Meta 發佈 Multi-SpatialMLLM:引領多模態 AI 的空間理解革命
科技巨頭 Meta 與香港中文大學的研究團隊聯合推出了 Multi-SpatialMLLM 模型,這一新框架在多模態大語言模型(MLLMs)的發展中取得了顯著進展,尤其是在空間理解方面。該模型通過整合深度感知、視覺對應和動態感知三大組件,突破了以往單幀圖像分析的限制,爲更復雜的視覺任務提供了強有力的支持。近年來,隨着機器人和自動駕駛等領域對空間理解能力的需求不斷增長,現有的 MLLMs 面臨着諸多挑戰。研究發現,現有模型在基礎空間推理任務中表現不佳,例如,無法準確區分左右方向。這