最近、杭州のテクノロジー企業である群核科技が、そのオープンソースの空間理解モデルSpatialLMがGoogleの論文で言及されたことで、業界の注目を集めています。このモデルの革新的な点は、ロボットが普通の動画を通して物理世界の幾何学的関係を理解できることであり、ロボットのトレーニング分野における大きなブレークスルーを意味します。

SpatialLMの中核機能は、携帯電話で撮影した動画を3次元空間配置情報に変換することです。ユーザーは自宅のレイアウトを携帯電話で録画するだけで、SpatialLMは部屋の構造、家具の位置、通路の幅など、詳細な3Dシーンを生成します。このプロセスにより、ロボットのトレーニングコストが大幅に削減され、効率が向上します。

image.png

GTC2025カンファレンスでは、群核科技は彼らの仮想トレーニングプラットフォームSpatialVerseも発表しました。このプラットフォームはSpatialLMが生成したデータと統合され、ロボットがシミュレーション環境で障害物回避や物体の把持などのトレーニングを行うことを可能にし、認知から行動までの完全な閉ループを形成します。簡単に言うと、このシステムを通じてロボットは空間配置を「見る」だけでなく、それらの環境でどのように操作するかを理解することができます。

SpatialLMの動作原理は複雑ではありません。MASt3R-SLAM技術を利用して動画を無数のフレームに分解し、ソファやテーブルなどの物体の詳細を抽出して点群モデルを構築します。その後、モデルはこれらのデータを構造化された3Dレイアウトに変換し、各物体の寸法や位置などの重要な情報を記録します。従来のトレーニング方法と比較して、SpatialLMは時間とリソースを節約するだけでなく、ロボットの空間認知能力も向上させます。

この技術の独自性は、ロボットが人間のように複雑な環境変化を理解し処理できる点にあります。家庭生活の日常品から職場にある工具まで、SpatialLMはロボットが迅速に適応し、タスクを実行するのを支援します。この能力は、特に現在の具現化された知能分野において多くの技術が実用化の課題に直面している中で、現実環境におけるロボットのパフォーマンス向上に非常に重要です。

群核科技はSpatialLMとSpatialVerseをオープンソース化することで、ロボットトレーニングの未来を再構築し、現実世界における様々な課題に柔軟に対応できるようになりつつあります。

プロジェクトアドレス:https://github.com/manycore-research/SpatialLM