开源动作预估模型ViTPose:可以预估每一帧动作,并进行标注
ViTPose是一个开源的动作预估模型,它特别擅长识别人体姿态,就像能看懂你在做什么动作一样。 这个模型最厉害的地方在于它的简洁和高效,它没有采用复杂的网络结构,而是直接使用了一种叫做视觉Transformer的技术。ViTPose 的核心是使用纯粹的视觉Transformer,这就像一个强大的“骨架”,可以提取图像中的关键特征。 它不像其他模型那样需要复杂的卷积神经网络(CNN)来辅助。 它的结构非常简单,就是把多个Transformer层叠在一起。ViTPose 模型可以根据需要调整大小。 就像一个可以伸缩的