El modelo de visión Sapiens, desarrollado por Meta Reality Labs, se centra en tareas de visión humana, incluyendo la estimación de postura 2D, la segmentación de partes del cuerpo, la estimación de profundidad y la predicción de normales de superficie. Entrenado con más de 300 millones de imágenes humanas, cuenta con capacidad de procesamiento de imágenes de alta resolución y un excelente rendimiento incluso con escasez de datos. Su diseño simple y fácil de ampliar muestra una mejora significativa del rendimiento al aumentar los parámetros, superando a los modelos base existentes en múltiples pruebas.