香港大学とTikTokが共同で開発した新しいMDEモデル「Depth Anything」は、大規模な未ラベル画像を用いて単眼深度推定を行うことができます。
このモデルは、強力な性能と実用性を備えており、優れたゼロショット能力を提供します。大規模な未ラベルデータの収集と自動アノテーションを行うデータエンジンを設計することで、データセットの規模を拡大し、汎化誤差を低減しています。
その登場は、ロボット工学、自動運転、仮想現実といった分野に新たな可能性をもたらします。
香港大学とTikTokが共同で開発した新しいMDEモデル「Depth Anything」は、大規模な未ラベル画像を用いて単眼深度推定を行うことができます。
このモデルは、強力な性能と実用性を備えており、優れたゼロショット能力を提供します。大規模な未ラベルデータの収集と自動アノテーションを行うデータエンジンを設計することで、データセットの規模を拡大し、汎化誤差を低減しています。
その登場は、ロボット工学、自動運転、仮想現実といった分野に新たな可能性をもたらします。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
バイトダンスのチームが独自開発した深度推定モデルDepth Anything V2が、Apple社から高く評価され、同社のCore MLモデルライブラリに掲載されました。このモデルは単眼深度推定ツールであり、単一の画像からシーンの深さを計算でき、ビデオエフェクト、自動運転、3Dモデリング、拡張現実など、幅広い分野で活用されています。初代の25Mパラメーターから2世代目の13億パラメーターへの飛躍的なアップグレードにより、深度推定精度と適用範囲がさらに拡大し、GitHubでは累計8.7kを超える評価を獲得しています。
バイトダンスは、次世代のDepth Anything V2深度モデルを発表しました。このモデルは、単眼深度推定において大幅な性能向上を実現しています。前世代のDepth Anything V1と比較して、V2版はより精細なディテールと高い堅牢性を備え、同時に効率性も大幅に向上しており、Stable Diffusionベースのモデルと比べて10倍以上の高速化を実現しました。
チューリッヒ工科大学(ETH Zurich)の研究者らが、Stable Diffusionを改良したオープンソースのMarigoldモデルを発表しました。Marigoldは、ノイズ除去U-Netモジュールを微調整することで、実際の深度画像のトレーニングデータなしで優れた性能を実現しています。合成データを用いたトレーニングにより、Marigoldは幅広いシーンを学習し、未知のデータセットにおける汎化能力を向上させています。その核心技術は、Stable Diffusionの豊富な事前知識を活用して、深度推定の汎化能力を高めることにあります。