宇树宣布正式开源 UnifoLM-VLA-0大模型。作为 UnifoLM 系列中专门针对通用人形机器人操作设计的视觉-语言-动作(VLA)模型,它标志着机器人大脑从单纯的“图文理解”向具备“物理常识”的具身智能跨出了关键一步。

技术突破:从感知到行动的深度融合
UnifoLM-VLA-0旨在打破传统视觉语言模型(VLM)在物理交互中的局限性:
具身大脑进化:通过在机器人操作数据上的持续预训练,使模型能够理解物理世界的交互规律,而非仅仅停留在语义层面。
空间细节对齐:模型深度融合了文本指令与2D/3D 空间细节,显著增强了在复杂环境下的空间感知与位置推理能力。
动力学约束:集成了动作分块预测及前向/逆向动力学约束,实现了对长时序动作序列的统一建模。

研发架构:基于 Qwen2.5-VL 的二次进化
宇树利用系统化清洗后的多任务数据集对模型进行了打磨:
核心基座:基于 Qwen2.5-VL-7B 开源模型构建。
高效训练:仅利用约340小时的真机数据进行离散动作预测训练,便实现了高质量的任务泛化。
性能评估:在空间理解基准测试中,其表现不仅远超基座模型,在特定模式下甚至可比肩 Gemini-Robotics-ER1.5。

实战表现:单一策略搞定12类复杂任务
在宇树 G1人形机器人平台上的验证结果令人瞩目:
多任务通用性:该模型在同一策略网络(checkpoint)下,能够稳定完成包括物体抓取、放置等在内的12项复杂操作任务。
强大的鲁棒性:真机实验表明,即使在面对外部扰动时,机器人依然能保持良好的执行稳定性与抗干扰能力。
目前,宇树已在GitHub及项目主页完整公开了模型代码与相关资料,旨在助力全球开发者共同推动通用人形机器人的商业化落地进程。


