Das Sapiens-Sehenmodell wurde von Meta Reality Labs entwickelt und konzentriert sich auf die Verarbeitung von Aufgaben im Bereich des menschlichen Sehens, darunter 2D-Posenschätzung, Segmentierung von Körperteilen, Tiefenabschätzung und Vorhersage von Oberflächennormalen. Das Modell wurde mit über 300 Millionen Bildern von Menschen trainiert, verfügt über die Fähigkeit zur Verarbeitung hochauflösender Bilder und liefert auch bei Datenknappheit hervorragende Ergebnisse. Es zeichnet sich durch seine einfache, skalierbare Architektur aus, wobei die Leistung mit zunehmender Parameterzahl deutlich verbessert wird und in mehreren Tests bestehende Basismodelle übertrifft.