Andon Labs评估显示,顶尖大模型扫地机器人执行“递黄油”多步骤任务成功率仅40%,远逊人类。任务涉及跨房间定位、识别包装、寻找移动人类、交付并返回充电等复杂环节,凸显AI在家庭场景的局限性。
Andon Labs研究发现,搭载顶级大模型的扫地机器人执行跨房间递送黄油等复杂家务任务时,成功率远低于人类,突显AI在现实场景中的操作局限。