チューリッヒ工科大学(ETH Zurich)の研究者らは、Stable DiffusionのオープンソースモデルであるMarigoldを改良することで、単眼深度推定における革新的な成果を達成しました。

実際の深度画像のトレーニングデータを使用することなく、ノイズ除去U-Netモジュールを微調整することで、優れた性能を実現しました。合成データを用いたトレーニングにより、Marigoldは幅広いシーンを学習し、未知のデータセットに対する汎化能力を高めることができます。

その核心技術は、Stable Diffusionの事前知識を活用し、アフィン不変深度推定法を用いて、カメラ内部パラメータの不確定性によって生じる深度推定誤差を除去することです。