字節跳動推出VLA通用機器人模型GR-3 支持高靈巧度操作
近日,字節跳動Seed團隊正式推出全新Vision-Language-Action Model(VLA)模型GR-3,該模型在機器人操作領域展現出突破性能力,不僅能理解包含抽象概念的語言指令,還可精準操作柔性物體,並具備快速遷移至新任務、認識新物體的泛化能力。這一成果被視爲邁向通用機器人“大腦”的重要進展。
傳統機器人操作模型往往依賴大量機器人軌跡數據進行訓練,導致遷移至新任務時成本高、效率低。GR-3則通過少量人類數據即可實現高效微調,其核心突破在於採用Mixture-of-Transformers(MoT)網絡結構,將視覺-語言模塊與動作生成模塊整合爲40億參數的端到端模型。其中,動作生成模塊通過Diffusion Transformer(DiT)結合Flow-Matching技術生成動作,並引