字节跳动推出VLA通用机器人模型GR-3 支持高灵巧度操作
近日,字节跳动Seed团队正式推出全新Vision-Language-Action Model(VLA)模型GR-3,该模型在机器人操作领域展现出突破性能力,不仅能理解包含抽象概念的语言指令,还可精准操作柔性物体,并具备快速迁移至新任务、认识新物体的泛化能力。这一成果被视为迈向通用机器人“大脑”的重要进展。
传统机器人操作模型往往依赖大量机器人轨迹数据进行训练,导致迁移至新任务时成本高、效率低。GR-3则通过少量人类数据即可实现高效微调,其核心突破在于采用Mixture-of-Transformers(MoT)网络结构,将视觉-语言模块与动作生成模块整合为40亿参数的端到端模型。其中,动作生成模块通过Diffusion Transformer(DiT)结合Flow-Matching技术生成动作,并引