最好的Sapiens AI工具模型_精选Sapiens资讯 - AIBase

AI资讯

Meta推出视觉分析模型Sapien 能看穿你的一举一动

Meta Reality Labs近期推出的人工智能模型“Sapiens”，在处理人类视觉任务上实现了重大突破。此模型专门用于分析和理解图片或视频中的人及其动作，通过在超过3亿张人类图像上的严格训练，展现出在复杂环境下的卓越性能。Sapiens的核心功能包括2D姿态估计、身体部位分割、深度估计和表面法线预测等，使得它能够精确识别人体姿势、区分身体部位，并预测图像中的深度信息和物体表面方向。其技术亮点包括基于大规模数据集的预训练、视觉变换器架构、遮掩自编码器预训练和多任务学习，这些使得Sapiens具备强大的泛化能力、高分辨率处理能力以及同时处理多项复杂任务的能力。Sapiens的应用范围广泛，包括视频监控、虚拟现实、医疗领域和社交媒体平台，其性能超越了现有方法，在多个任务上表现优异。

19.1k 20 小时前

Meta推出视觉分析模型Sapien 能看穿你的一举一动

AI产品

Sapiens

Sapiens

先进的人工智能视觉模型，专门分析和理解人类动作。

Virtual Sapiens

Virtual Sapiens

让视频会议更加人性化

模型

Sapiens Pose 0.6b

facebook

Sapiens 是一个基于 3 亿张高分辨率人类图像预训练的视觉 Transformer 模型家族，专注于以人为中心的视觉任务。

计算机视觉英语

Sapiens Pose 0.6b Torchscript

facebook

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专为姿态估计任务设计，支持308个关键点检测。

计算机视觉英语

Sapiens Pose 0.3b Torchscript

facebook

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专为姿态估计任务设计，支持308个关键点检测。

计算机视觉英语

Sapiens Depth 0.3b Bfloat16

facebook

Sapiens是一个在3亿张1024x1024分辨率的人类图像上预训练的视觉变换器系列模型，专注于以人为中心的视觉任务。

计算机视觉英语

Sapiens Depth 1b Bfloat16

facebook

Sapiens 是一个在3亿张1024x1024分辨率的人像图片上预训练的视觉Transformer模型，专注于以人为中心的视觉任务。

计算机视觉英语

Sapiens Depth 2b Bfloat16

facebook

Sapiens-2B是基于3亿张高分辨率人体图像预训练的视觉Transformer模型，专门针对人体深度估计任务优化，支持1K分辨率推理并具有优秀的真实场景泛化能力。

计算机视觉英语

Sapiens Seg 0.6b Bfloat16

facebook

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

计算机视觉英语

Sapiens Seg 1b Bfloat16

facebook

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专注于以人为中心的视觉任务

计算机视觉英语

Sapiens Pose 1b Bfloat16

facebook

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉变换器系列模型，专注于以人为中心的视觉任务。

计算机视觉英语

Sapiens Pretrain 1b Bfloat16

facebook

Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型，支持高分辨率推理和真实场景泛化。

计算机视觉英语

Sapiens Pretrain 2b Bfloat16

facebook

Sapiens 是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，支持高分辨率推理和真实场景泛化。

计算机视觉英语

Sapiens Depth 0.3b

facebook

智人（Sapiens）是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专注于以人为中心的视觉任务。

计算机视觉英语

Sapiens Depth 0.6b

facebook

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

计算机视觉英语

Sapiens Depth 2b

facebook

Sapiens是一个基于3亿张1024×1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

计算机视觉英语

Sapiens Seg 0.3b

facebook

Sapiens是一个基于3亿张1024×1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

计算机视觉英语

Sapiens Seg 0.6b

facebook

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

计算机视觉英语

Sapiens Seg 1b

facebook

Sapiens是基于3亿张人类图像预训练的视觉Transformer模型，专注于以人为中心的分割任务，支持1K高分辨率推理。

计算机视觉英语

Sapiens Pose 1b

facebook

Pose-Sapiens-1B 是一个基于视觉 Transformer 架构的高分辨率人体姿态估计模型，在 3 亿张 1024x1024 分辨率的人类图像上预训练，支持 308 个关键点检测（身体、面部、手部和足部）。

计算机视觉英语

Sapiens Pretrain 0.3b

facebook

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专为以人为中心的视觉任务设计。

计算机视觉英语

Sapiens Pretrain 0.6b

facebook

Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型，擅长以人为中心的视觉任务。

计算机视觉英语

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

© 2026AIBase

商务合作网站地图