O modelo de visão Sapiens foi desenvolvido pela Meta Reality Labs e concentra-se em tarefas de visão humana, incluindo estimação de pose 2D, segmentação de partes do corpo, estimação de profundidade e previsão de normais de superfície. Treinado em mais de 300 milhões de imagens humanas, possui capacidade de processamento de imagens de alta resolução e apresenta excelente desempenho mesmo com escassez de dados. Seu design simples e de fácil expansão permite um aumento significativo de desempenho com o acréscimo de parâmetros, superando modelos base existentes em diversos testes.