Meta推出视觉分析模型Sapien 能看穿你的一举一动
Meta Reality Labs近期推出的人工智能模型“Sapiens”,在处理人类视觉任务上实现了重大突破。此模型专门用于分析和理解图片或视频中的人及其动作,通过在超过3亿张人类图像上的严格训练,展现出在复杂环境下的卓越性能。Sapiens的核心功能包括2D姿态估计、身体部位分割、深度估计和表面法线预测等,使得它能够精确识别人体姿势、区分身体部位,并预测图像中的深度信息和物体表面方向。其技术亮点包括基于大规模数据集的预训练、视觉变换器架构、遮掩自编码器预训练和多任务学习,这些使得Sapiens具备强大的泛化能力、高分辨率处理能力以及同时处理多项复杂任务的能力。Sapiens的应用范围广泛,包括视频监控、虚拟现实、医疗领域和社交媒体平台,其性能超越了现有方法,在多个任务上表现优异。