在具身智能领域徘徊了三周的“神秘模型”身份终于揭晓。此前,一个名为MotuBrain的模型在物理世界理解与动作执行的两大国际基准测试中悄然登顶,引发业内广泛猜测。近日,凭借视频大模型Vidu声名鹊起的生数科技正式宣布,该模型正是其在具身智能领域的最新商业化成果。

这次“跨界”并非玩票。MotuBrain在WorldArena(考察物理世界理解)和RoboTwin2.0(考察动作执行)中均刷新了历史记录。尤其在模拟随机扰动的复杂环境下,它是唯一平均分突破95分的模型,展现了极强的泛化能力。

image.png

“边看边动”:打破感知与行动的边界

不同于传统的“先想象再执行”模式,MotuBrain采用了创新的“世界动作模型”(World Action Model)路径。这种“边看边动”的设计,让机器人在决策的同时进行推演,确保预测与执行的偏差不会被相互放大,极大地提升了响应速度。

在实际演示中,搭载该系统的机器人展示了极高的智能化水平。在火锅局场景下,机器人能通过视觉判断勺子是否为空,并自主决定是否重新捞取,而非僵化地重复预设动作。这种“察言观色”的能力,标志着机器人正从简单的机械执行转向真正的智能决策。

image.png

一脑多型,实现长程任务的丝滑衔接

MotuBrain的核心优势在于其强大的通用性。它不仅支持“一脑多型”,可适配不同自由度和传感器的机器人本体,更具备“一脑贯通”的长程任务处理能力。在插花、调酒、整理沙发等演示中,机器人能够连续完成超过10个原子动作,过程行云流水,无需人工干预。

数据显示,随着任务种类的增加,MotuBrain的学习成功率呈上升趋势。这说明模型掌握的是物理世界的通用底层规律,而非死记硬背动作模版。任务越多样,其表现越出色。

布局物理世界,数字与实体双轨并行

生数科技此次展示的实力,源于其深厚的技术积淀。通过全球首创的U-ViT架构,公司实现了数字世界生成(VGM)与物理世界执行(WAM)的统一。左手Vidu生成虚拟世界,右手MotuBrain驱动实体交互,这种双轨布局使其在数据获取成本与模型迭代速度上具备显著优势。

目前,生数科技已与无界动力、星尘智能等多家企业达成战略合作。随着具身智能竞争重心的转移,拥有通用化“大脑”的模型开发者正成为重塑行业格局的关键力量。