Le modèle de vision Sapiens, développé par Meta Reality Labs, est spécialisé dans le traitement des tâches de vision humaine, notamment l'estimation de pose 2D, la segmentation des parties du corps, l'estimation de profondeur et la prédiction des normales de surface. Entraîné sur plus de 300 millions d'images humaines, il possède une capacité de traitement d'images haute résolution et offre d'excellentes performances même avec des données limitées. Sa conception simple et extensible permet une amélioration significative des performances avec l'augmentation des paramètres, surpassant les modèles de référence existants dans plusieurs tests.