物理AI正成为科技巨头新战场。OpenAI、英伟达与特斯拉近期在具身智能领域推出重大举措,表明机器人产业竞争从硬件制造升级为底层基础设施与行业标准制定。OpenAI新成立“OpenAI Robotics”团队,标志着科技巨头深度下场,打破初创和传统企业主导格局。
OpenAI宣布成立Robotics事业部,将AI从软件拓展至具身智能领域,旨在通过大模型连接物理世界。CEO山姆·奥特曼公开招募全栈硬件、运营、系统及机器学习工程师,强调AI应切实帮助人类生活。团队计划分阶段推进,短期内专注研发,以逐步实现现实世界应用。
蚂蚁灵波科技与香港科技大学等高校合作的研究论文《Causal World Modeling for Robot Control》被国际机器人顶级会议RSS 2026接收。该会议是机器人领域公认的顶级学术会议,关注学习、控制、感知等前沿方向,录用标准严格。论文被接收标志着研究兼具学术创新性与国际认可。
具身智能领域的神秘模型MotuBrain身份揭晓,该模型由视频大模型Vidu开发商生数科技推出,是其最新商业化成果。MotuBrain在物理世界理解基准WorldArena和动作执行基准RoboTwin2.0中均登顶,刷新了纪录,展示了生数科技在具身智能领域的跨界实力。
用AI秒速创建个性化圣诞贺卡,首张免费,可印刷配送或发电子卡。
基于Gemini 2.0的机器人模型,将AI带入物理世界,具备视觉、语言和动作能力。
用于双手操作的扩散基础模型
特斯拉自动驾驶技术与机器人的未来愿景
Remade-AI
基于Wan2.1 14B I2V 480p模型训练的LoRA,可将任何图像主体转化为展现机器人面部的视频效果
RobotsMali
这是一个基于NVIDIA NeMo框架微调的班巴拉语自动语音识别模型,适用于处理班巴拉语语音转文本任务。
robotics-diffusion-transformer
RDT-170M是一个拥有1.7亿参数的模仿学习扩散Transformer模型,用于机器人视觉-语言-动作任务。
robotjagaek
一个基于PyTorch和HuggingPics构建的图像分类模型,专门用于识别不同种类的鞋子。
Ethan-pooh
基于robotics-diffusion-transformer/rdt-1b衍生的RDT模型,专注于机器人技术领域。
基于100万+多机器人操作数据预训练的10亿参数模仿学习扩散Transformer模型,支持多视角视觉语言动作预测
robotjung
专为生成半写实风格人物图像而打造的模型,经过多次模型融合优化。
ros2-mcp-server是一个基于Python的服务器,通过Model Context Protocol (MCP)与ROS 2集成,使AI助手能够通过ROS 2话题控制机器人运动。它支持时间控制的移动命令,并作为ROS 2节点运行,发布geometry_msgs/Twist消息到/cmd_vel话题。
将Robot Framework库转换为MCP服务器的指南,通过添加特定函数和配置,使库能够作为MCP服务运行,便于客户端调用。
这是一个Airbnb房源搜索和详情查询的MCP服务,提供结构化数据和直接链接,无需API密钥,遵守robots.txt规则。
一个基于FastMCP的机器人控制服务器项目,支持移动动作控制,未来将扩展导航功能。
Airbnb搜索与房源信息桌面扩展,提供高级搜索过滤功能和详细房源信息获取,支持位置搜索、日期筛选、价格区间等多种查询条件,并遵守robots.txt协议确保合规使用。