Investigadores del Instituto Federal Suizo de Tecnología (ETH Zurich) han logrado un avance innovador en la estimación de profundidad monocular mediante la modificación del modelo de código abierto Stable Diffusion, denominado Marigold. Este modelo, sin necesidad de datos de entrenamiento de imágenes de profundidad reales, ha alcanzado un rendimiento excepcional mediante el ajuste fino del módulo U-Net de eliminación de ruido.
Entrenado con datos sintéticos, Marigold puede aprender una amplia gama de escenas, mejorando su capacidad de generalización en conjuntos de datos no vistos previamente. La idea central de esta tecnología radica en el aprovechamiento del conocimiento previo de Stable Diffusion, empleando un método de estimación de profundidad afín-invariante para eliminar los errores de estimación de profundidad causados por la incertidumbre de los parámetros intrínsecos de la cámara.