具身智能领域的神秘模型MotuBrain身份揭晓,该模型由视频大模型Vidu开发商生数科技推出,是其最新商业化成果。MotuBrain在物理世界理解基准WorldArena和动作执行基准RoboTwin2.0中均登顶,刷新了纪录,展示了生数科技在具身智能领域的跨界实力。
腾讯 Robotics X 与混元团队联合开源HY-Embodied-0.5-X多模态大模型,专为机器人具身任务优化。该模型基于MoT-2B架构,强化“看懂、想清、做到”能力,在精细操作、空间推理、动作预测和风险判断上表现突出。系列包含MoT-2B和MoE-32B两个版本,旨在提升机器人在真实环境的智能交互水平。
波士顿动力与谷歌DeepMind合作,将Gemini Robotics-ER1.6 AI模型集成到Spot机器人中,显著提升了其在工业检测中的能力,特别是在泄漏识别和仪表数据读取方面,增强了机器人的自主决策性能。
Animotion Robotics创始人朱圣杰与Midjourney联合创始人John Jiang共同推出首款DIY仿生机器人Éloi,旨在突破具身智能极限,重塑人机情感共生。朱圣杰曾任职迪士尼Imagineering机器人工程师,团队背景硬核,融合“迪士尼基因”与AI芯片技术,探索物理世界人机交互新可能。
用AI秒速创建个性化圣诞贺卡,首张免费,可印刷配送或发电子卡。
基于Gemini 2.0的机器人模型,将AI带入物理世界,具备视觉、语言和动作能力。
用于双手操作的扩散基础模型
特斯拉自动驾驶技术与机器人的未来愿景
Remade-AI
基于Wan2.1 14B I2V 480p模型训练的LoRA,可将任何图像主体转化为展现机器人面部的视频效果
RobotsMali
这是一个基于NVIDIA NeMo框架微调的班巴拉语自动语音识别模型,适用于处理班巴拉语语音转文本任务。
robotics-diffusion-transformer
RDT-170M是一个拥有1.7亿参数的模仿学习扩散Transformer模型,用于机器人视觉-语言-动作任务。
robotjagaek
一个基于PyTorch和HuggingPics构建的图像分类模型,专门用于识别不同种类的鞋子。
Ethan-pooh
基于robotics-diffusion-transformer/rdt-1b衍生的RDT模型,专注于机器人技术领域。
基于100万+多机器人操作数据预训练的10亿参数模仿学习扩散Transformer模型,支持多视角视觉语言动作预测
robotjung
专为生成半写实风格人物图像而打造的模型,经过多次模型融合优化。
ros2-mcp-server是一个基于Python的服务器,通过Model Context Protocol (MCP)与ROS 2集成,使AI助手能够通过ROS 2话题控制机器人运动。它支持时间控制的移动命令,并作为ROS 2节点运行,发布geometry_msgs/Twist消息到/cmd_vel话题。
将Robot Framework库转换为MCP服务器的指南,通过添加特定函数和配置,使库能够作为MCP服务运行,便于客户端调用。
这是一个Airbnb房源搜索和详情查询的MCP服务,提供结构化数据和直接链接,无需API密钥,遵守robots.txt规则。
一个基于FastMCP的机器人控制服务器项目,支持移动动作控制,未来将扩展导航功能。
Airbnb搜索与房源信息桌面扩展,提供高级搜索过滤功能和详细房源信息获取,支持位置搜索、日期筛选、价格区间等多种查询条件,并遵守robots.txt协议确保合规使用。