最近、AIラボのAndon Labsは、最高級の大規模モデルを搭載したロボット掃除機が簡単な家事タスクを遂行する際のパフォーマンスを専門に評価する注目すべき研究を行いました。実験では、これらのロボットに「バターを人に渡す」といった複雑な指示を実行させることが課題とされ、部屋間の位置特定、包装の識別、移動中の人の検出、配達の完了、充電への戻りなど、多段階のプロセスを含んでいました。
しかし、結果は驚きでした。これらの高度なロボットはタスクを遂行する成功率が人間よりも大幅に低く、具体的なデータによると、Gemini2.5Proは40%、Claude Opus4.1は37%、GPT-5はわずか30%にとどまりました。これらの数字は、これらがテキスト生成能力が強力であるにもかかわらず、空間的推論や環境理解、長期的なタスク計画などの分野ではまだ力不足であることを示しています。

図の出典コメント:画像はAIによって生成されています。画像のライセンス提供元はMidjourneyです。
研究チームは、この低成功率は技術的な欠点だけでなく、潜在的なセキュリティ上のリスクも含まれていると指摘しました。例えば、一部のロボットは操作中に機密ファイルを漏洩する可能性があり、または階段のリスクを正しく認識できず、予期せぬ転落を引き起こすことがあります。この現象は、現在の大型言語モデル(LLM)と機械の結合において直面しているセキュリティ上の脆弱性をさらに明らかにしています。
テクノロジー大手が次々とロボット業界に参入する中、この研究は、強力なテキスト生成能力が現実世界でのタスクの安定性や安全性を保証しないことを私たちに思い出させてくれます。AIロボットが家庭生活に本当に浸透するためには、多くの工学的およびセキュリティ上の問題を解決する必要があります。
これらのスマートデバイスは家庭生活において大きな期待を担っていますが、現在の研究結果を見ると、それらの応用に対してより慎重であるべきです。技術が進歩し続けるにつれて、将来的なロボット掃除機がこれらの障壁を乗り越え、日常生活に本当の便利さをもたらすことを願っています。






