開源動作預估模型ViTPose:可以預估每一幀動作,並進行標註
ViTPose是一個開源的動作預估模型,它特別擅長識別人體姿態,就像能看懂你在做什麼動作一樣。 這個模型最厲害的地方在於它的簡潔和高效,它沒有采用複雜的網絡結構,而是直接使用了一種叫做視覺Transformer的技術。ViTPose 的核心是使用純粹的視覺Transformer,這就像一個強大的“骨架”,可以提取圖像中的關鍵特徵。 它不像其他模型那樣需要複雜的卷積神經網絡(CNN)來輔助。 它的結構非常簡單,就是把多個Transformer層疊在一起。ViTPose 模型可以根據需要調整大小。 就像一個可以伸縮的