3月31日,蚂蚁灵波科技正式开源大规模 RGB-D 深度数据集 LingBot-Depth-Dataset。该数据集包含300万对高质量样本,其中200万对来自真实场景采集、100万对由渲染生成,总规模达 2.71TB,覆盖6款主流深度相机,是目前开源社区中规模最大的真实场景 RGB-D 数据集。此次开源将为具身智能、空间感知和三维视觉等方向提供更丰富、更贴近真实应用的数据支撑。

0bc65a519522f645f87f903575c0d757.png

(图说:LingBot-Depth-Dataset 数据样例。从上到下依次为 RGB 图像、传感器原始深度图和真值深度图。该数据集同时提供原始深度与真值深度信息,为相关模型在真实场景中的训练和评估提供有力支撑。)

长期以来,公开深度数据集普遍存在规模有限、真实场景覆盖不足、硬件设备单一等问题,不少数据以合成为主,与真实传感器在噪声、空洞和材质表现上存在较大差异,在很大程度上制约了相关模型在真实环境中的应用。

LingBot-Depth-Dataset 有效填补了空间感知领域的数据空白,特别是提供了大规模基于真实场景拍摄的数据。这套数据集每条样本均包含 RGB 图像、传感器原始深度图和真值深度图,可直接用于深度估计与深度补全任务的训练和评估。数据集覆盖 Orbbec335、335L 以及 Intel RealSense D405、D415、D435、D455共6款主流深度相机,有助于提升模型在不同设备和场景下的训练、适配与评估。

据介绍,蚂蚁灵波此前开源的高精度空间感知模型 LingBot-Depth,正是以该数据集作为核心训练数据。相比业界主流方法 PromptDA 与 PriorDA,LingBot-Depth 在室内场景中的深度预测误差降低超过70%,在稀疏深度补全等任务中的误差降低约47%。市售深度相机搭载该模型后,无需硬件升级,即可在透明玻璃、反光镜面、逆光等复杂场景下输出更完整、更平滑、边缘更清晰的深度图,且在部分场景中的表现超过业界顶级工业级深度相机。

对于高校、科研机构而言,这次开源不仅有助于降低数据采集与标注门槛,也有望加速相关技术从研究验证走向真实应用。随着机器人和具身智能加快进入实际场景,大规模、高质量、以真实采集为主体的空间感知数据集,无疑将成为行业持续进步的重要基础设施。