VGGSfMは、深層学習に基づく3次元再構成技術であり、制約のない2次元画像セットからシーンのカメラ姿勢と3次元構造を再構成することを目的としています。本技術は、完全に微分可能な深層学習フレームワークを用いて、エンドツーエンドの学習を実現しています。信頼性の高いピクセルレベルの軌跡を抽出するために深層2次元点追跡技術を利用し、同時に画像と軌跡の両方の特徴に基づいて全てのカメラを復元し、微分可能なバンドル調整層によってカメラと三角測量された3次元点を最適化します。VGGSfMは、CO3D、IMC Phototourism、ETH3Dという3つの一般的なデータセットにおいて、最先端の性能を達成しています。