Meta推出視覺分析模型Sapien 能看穿你的一舉一動
Meta Reality Labs近期推出的人工智能模型“Sapiens”,在處理人類視覺任務上實現了重大突破。此模型專門用於分析和理解圖片或視頻中的人及其動作,通過在超過3億張人類圖像上的嚴格訓練,展現出在複雜環境下的卓越性能。Sapiens的核心功能包括2D姿態估計、身體部位分割、深度估計和表面法線預測等,使得它能夠精確識別人體姿勢、區分身體部位,並預測圖像中的深度信息和物體表面方向。其技術亮點包括基於大規模數據集的預訓練、視覺變換器架構、遮掩自編碼器預訓練和多任務學習,這些使得Sapiens具備強大的泛化能力、高分辨率處理能力以及同時處理多項複雜任務的能力。Sapiens的應用範圍廣泛,包括視頻監控、虛擬現實、醫療領域和社交媒體平臺,其性能超越了現有方法,在多個任務上表現優異。