谷歌最新研究提出SpatialVLM解决视觉语言模型缺乏空间推理能力的问题。通过借鉴人类空间推理能力,研究者设计了SpatialVLM,使其具备直接空间推理和链式思维能力。研究者使用开放词汇检测、深度估计、语义分割等模型训练SpatialVLM,提升了模型在空间问题和定量估计方面的表现。设计全面的数据生成框架,提取实体信息并生成大规模空间VQA数据集,使模型具备直接空间推理和链式思维的能力。这一研究为视觉语言模型的发展带来新可能性,为人工智能领域带来新的进步。