最好的Sapiens AI工具模型_精選Sapiens資訊 - AIBase

AI資訊

Meta推出視覺分析模型Sapien 能看穿你的一舉一動

Meta Reality Labs近期推出的人工智能模型“Sapiens”，在處理人類視覺任務上實現了重大突破。此模型專門用於分析和理解圖片或視頻中的人及其動作，通過在超過3億張人類圖像上的嚴格訓練，展現出在複雜環境下的卓越性能。Sapiens的核心功能包括2D姿態估計、身體部位分割、深度估計和表面法線預測等，使得它能夠精確識別人體姿勢、區分身體部位，並預測圖像中的深度信息和物體表面方向。其技術亮點包括基於大規模數據集的預訓練、視覺變換器架構、遮掩自編碼器預訓練和多任務學習，這些使得Sapiens具備強大的泛化能力、高分辨率處理能力以及同時處理多項複雜任務的能力。Sapiens的應用範圍廣泛，包括視頻監控、虛擬現實、醫療領域和社交媒體平臺，其性能超越了現有方法，在多個任務上表現優異。

Meta推出視覺分析模型Sapien 能看穿你的一舉一動

AI產品

Sapiens

Sapiens

先進的人工智能視覺模型，專門分析和理解人類動作。

Virtual Sapiens

Virtual Sapiens

讓視頻會議更加人性化

模型

Sapiens Pose 0.6b

facebook

Sapiens 是一個基於 3 億張高分辨率人類圖像預訓練的視覺 Transformer 模型家族，專注於以人為中心的視覺任務。

計算機視覺英語

Sapiens Pose 0.6b Torchscript

facebook

Sapiens是基於3億張高分辨率人類圖像預訓練的視覺Transformer模型，專為姿態估計任務設計，支持308個關鍵點檢測。

計算機視覺英語

Sapiens Pose 0.3b Torchscript

facebook

Sapiens是基於3億張高分辨率人類圖像預訓練的視覺Transformer模型，專為姿態估計任務設計，支持308個關鍵點檢測。

計算機視覺英語

Sapiens Depth 0.3b Bfloat16

facebook

Sapiens是一個在3億張1024x1024分辨率的人類圖像上預訓練的視覺變換器系列模型，專注於以人為中心的視覺任務。

計算機視覺英語

Sapiens Depth 1b Bfloat16

facebook

Sapiens 是一個在3億張1024x1024分辨率的人像圖片上預訓練的視覺Transformer模型，專注於以人為中心的視覺任務。

計算機視覺英語

Sapiens Depth 2b Bfloat16

facebook

Sapiens-2B是基於3億張高分辨率人體圖像預訓練的視覺Transformer模型，專門針對人體深度估計任務優化，支持1K分辨率推理並具有優秀的真實場景泛化能力。

計算機視覺英語

Sapiens Seg 0.6b Bfloat16

facebook

Sapiens是一個基於3億張1024x1024分辨率人類圖像預訓練的視覺Transformer模型家族，專注於以人為中心的視覺任務。

計算機視覺英語

Sapiens Seg 1b Bfloat16

facebook

Sapiens是基於3億張高分辨率人類圖像預訓練的視覺Transformer模型，專注於以人為中心的視覺任務

計算機視覺英語

Sapiens Pose 1b Bfloat16

facebook

Sapiens是一個基於3億張1024x1024分辨率人類圖像預訓練的視覺變換器系列模型，專注於以人為中心的視覺任務。

計算機視覺英語

Sapiens Pretrain 1b Bfloat16

facebook

Sapiens是基於3億張1024×1024分辨率人體圖像預訓練的視覺Transformer模型，支持高分辨率推理和真實場景泛化。

計算機視覺英語

Sapiens Pretrain 2b Bfloat16

facebook

Sapiens 是一個基於3億張1024x1024分辨率人類圖像預訓練的視覺Transformer模型家族，支持高分辨率推理和真實場景泛化。

計算機視覺英語

Sapiens Depth 0.3b

facebook

智人（Sapiens）是基於3億張高分辨率人類圖像預訓練的視覺Transformer模型，專注於以人為中心的視覺任務。

計算機視覺英語

Sapiens Depth 0.6b

facebook

Sapiens是一個基於3億張1024x1024分辨率人類圖像預訓練的視覺Transformer模型家族，專注於以人為中心的視覺任務。

計算機視覺英語

Sapiens Depth 2b

facebook

Sapiens是一個基於3億張1024×1024分辨率人類圖像預訓練的視覺Transformer模型家族，專注於以人為中心的視覺任務。

計算機視覺英語

Sapiens Seg 0.3b

facebook

Sapiens是一個基於3億張1024×1024分辨率人類圖像預訓練的視覺Transformer模型家族，專注於以人為中心的視覺任務。

計算機視覺英語

Sapiens Seg 0.6b

facebook

Sapiens是一個基於3億張1024x1024分辨率人類圖像預訓練的視覺Transformer模型家族，專注於以人為中心的視覺任務。

計算機視覺英語

Sapiens Seg 1b

facebook

Sapiens是基於3億張人類圖像預訓練的視覺Transformer模型，專注於以人為中心的分割任務，支持1K高分辨率推理。

計算機視覺英語

Sapiens Pose 1b

facebook

Pose-Sapiens-1B 是一個基於視覺 Transformer 架構的高分辨率人體姿態估計模型，在 3 億張 1024x1024 分辨率的人類圖像上預訓練，支持 308 個關鍵點檢測（身體、面部、手部和足部）。

計算機視覺英語

Sapiens Pretrain 0.3b

facebook

Sapiens是基於3億張高分辨率人類圖像預訓練的視覺Transformer模型，專為以人為中心的視覺任務設計。

計算機視覺英語

Sapiens Pretrain 0.6b

facebook

Sapiens是基於3億張1024×1024分辨率人體圖像預訓練的視覺Transformer模型，擅長以人為中心的視覺任務。

計算機視覺英語

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

© 2026AIBase

商務合作網站地圖