宇树科技开源人形机器人运动控制架构OmniXtreme,并发布技术论文。该架构旨在解决高动态场景下动作保真度下降与物理落地难题,采用双阶段训练框架,首阶段通过流匹配预训练整合高动态技能,提升人形机器人极限动作表现。
小米开源47亿参数机器人模型Xiaomi-Robotics-0,采用MoT混合架构,通过“大脑”与“小脑”协同工作,在消费级显卡上实现实时推理,解决现有VLA模型因推理延迟导致动作迟缓的问题,提升机器人控制效率与泛化能力。
蚂蚁灵波科技开源具身世界模型LingBot-VA,首次提出自回归视频-动作世界建模框架,将视频生成与机器人控制深度融合。模型可同步生成未来世界状态并输出动作序列,实现“边推演、边行动”。真机评测显示,该模型能有效应对复杂物理交互任务。
快手旗下可灵AI在2026年初实现爆发式增长,月活跃用户突破1200万,App付费用户环比激增350%。增长主要得益于产品快速迭代,包括2025年底发布的多模态视频模型O1和“音画同出”功能,以及2026年1月推出的“动作控制”新功能,用户可通过图片和动作参考生成视频。
WHAM 是微软开发的一种生成式游戏模型,用于生成游戏视觉和控制器动作。
免费开源AI在线动作捕捉工具,控制纸片人MMD模型
文本引导的情感和动作控制,生成生动的2D头像
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
Bytedance
32
Openai
$0.35
$2.8
400
Minimax
Baidu
nbirukov
基于扩散策略的视觉运动控制模型,将机器人控制视为生成扩散过程,能够生成平滑的多步动作轨迹,在富接触操作任务中表现出色。
masato-ka
针对蓝色或绿色积木分类训练的动作分块Transformer策略模型,用于控制SO-ARM100机械臂进行积木分类抓取任务
IPEC-COMMUNITY
SpatialVLA是一个视觉-语言-动作模型,通过在fractal数据集上微调得到,主要用于机器人控制任务。
lerobot
Pi0是一个通用机器人控制的视觉-语言-动作流模型,支持机器人控制任务。
SpatialVLA是一个视觉-语言-动作模型,通过微调基础模型在分形与桥数据集上获得,专为机器人控制任务设计。
SpatialVLA是基于110万真实机器人操作片段训练的空间增强视觉语言动作模型,专注于机器人控制任务
ConnorJiang
一个基于PyTorch的动作控制模型,适用于机器人技术领域
TrossenRoboticsCommunity
一个基于PyTorch的动作控制模型,专注于机器人技术领域的动作控制任务。
openvla
OpenVLA v0.1 7B是一个开源视觉-语言-动作模型,基于Open X-Embodiment数据集训练,支持多种机器人控制。
rail-berkeley
Octo小型版是一个用于机器人控制的扩散策略模型,采用Transformer架构,能够根据视觉输入和语言指令预测机器人动作。
Octo小型版是一个基于扩散策略训练的机器人控制模型,能够预测未来4步的7维动作,适用于多源机器人数据集。
Octo是一个基于扩散策略训练的机器人控制基础模型,能够预测未来动作并处理多模态输入。
af1tang
PersonaGPT是一个开放领域的对话代理,能够基于个性特征生成个性化回复,并通过动作代码控制对话方向。
VRChat MCP OSC是一个通过OSC协议连接AI助手与VRChat的桥梁,支持AI控制虚拟角色动作、表情和交互。
ROS2的MCP服务器,通过标准MCP协议让AI工具能够连接ROS2节点、主题和服务,提供主题订阅发布、服务调用、动作控制等功能,支持嵌套字段和自动类型发现,简化AI与ROS2的集成开发。
一个基于FastMCP的机器人控制服务器项目,支持移动动作控制,未来将扩展导航功能。