地平线机器人实验室开源了4亿级参数模型HoloMotion-1,专注解决人形机器人运动控制难题。该模型作为“小脑”大模型,不负责决策思考,而是专攻稳定、精准、类人的全身运动控制,标志着其在人形机器人技术路线上的关键第一步。
宇树科技开源人形机器人运动控制架构OmniXtreme,并发布技术论文。该架构旨在解决高动态场景下动作保真度下降与物理落地难题,采用双阶段训练框架,首阶段通过流匹配预训练整合高动态技能,提升人形机器人极限动作表现。
智谱AI推出清影2.0,基于自研CogVideoX模型,可直接生成1080P高清视频,最长10秒。模型全面控制运动、镜头和风格,支持多视频同时生成及镜头指定。实测画质接近Sora,中文提示理解更准、生成更快。还集成CogSound音效模块,实现文本到视频的高效创作。
杭州宇树科技公布新专利,通过数字孪生技术提升机器人舞台表演的灵活性与适应性。该技术包含环境采集、地图处理、数字舞台孪生、舞蹈动作设计、轨迹规划及舞蹈合成六大功能模块,旨在实现复杂精彩的机器人舞蹈表演。
在线文本转视频、图像转视频,支持运动控制,生成带原生音频的电影剪辑。
从参考图像和视频创建电影级运动控制视频,支持角色动画等
先进AI视频框架,利用Kling 3.0和2.6实现角色一致、表情细腻和动态相机移动。
上传图片与运动参考视频,生成逐帧精准、角色一致的电影级视频。
Alibaba
-
Input tokens/M
Output tokens/M
Context Length
Bytedance
32
Tencent
Openai
$0.35
$2.8
400
Stepfun
Baidu
Minimax
nbirukov
基于扩散策略的视觉运动控制模型,将机器人控制视为生成扩散过程,能够生成平滑的多步动作轨迹,在富接触操作任务中表现出色。
bytedance-research
ATI 是一个基于轨迹的运动控制框架,统一了视频生成中的物体、局部和相机运动。
obvious-research
OnlyFlow是基于光流的视频扩散模型,用于精确控制视频生成中的运动
Embodied-CoT
适用于机器人控制任务的预训练Transformer模型,支持运动规划、物体抓取等基础功能
sb3
这是一个基于SAC算法的强化学习模型,用于在Hopper-v3环境中控制机器人跳跃运动。
这是一个用于控制Reachy Mini机器人的MCP服务器,通过自然语言指令实现舞蹈、表情、头部运动、摄像头图像捕捉、头部跟踪和本地实时语音合成等功能。
ros2-mcp-server是一个基于Python的服务器,通过Model Context Protocol (MCP)与ROS 2集成,使AI助手能够通过ROS 2话题控制机器人运动。它支持时间控制的移动命令,并作为ROS 2节点运行,发布geometry_msgs/Twist消息到/cmd_vel话题。
ROS MCP服务器通过自然语言命令控制机器人运动,支持ROS和ROS2系统。