ViTPose-plus-base開源人體姿態估計模型 - 準確識別助力運動分析與監控

首頁

Vitpose Plus Base

由usyd-community開發

ViTPose是一個基於視覺Transformer的人體姿態估計模型，採用簡潔設計在MS COCO關鍵點檢測基準上取得81.1 AP的優異表現。

姿態估計

Transformers

英語開源協議:Apache-2.0 #人體姿態估計 #視覺Transformer #高精度關鍵點檢測

下載量 22.26k

發布時間 : 1/8/2025

模型概述

該模型通過樸素視覺Transformer架構實現高效人體姿態估計，支持從100M到1B參數規模的靈活擴展，具有高度並行性和知識遷移能力。

模型特點

簡潔架構設計

採用非層級化視覺Transformer骨幹網絡，無需複雜領域知識設計即實現高性能

靈活可擴展

參數規模可從100M擴展至1B，在吞吐量與性能間建立帕累託前沿

多任務適應性

支持注意力類型、輸入分辨率、預訓練策略的靈活調整，可處理多姿態任務

知識可遷移性

大型模型知識可通過知識令牌輕鬆遷移至小型模型

模型能力

人體姿態估計

多人關鍵點檢測

遮擋場景分析

使用案例

健康健身

運動姿勢分析

即時追蹤健身動作關鍵點

提供動作規範性反饋

安防監控

行為監測

公共場所異常行為識別

數字娛樂

動作捕捉

遊戲角色動作生成

🚀 VitPose模型卡

ViTPose是用於人體姿態估計的簡單視覺Transformer基線模型，ViTPose+則是用於通用人體姿態估計的視覺Transformer基礎模型。該模型在MS COCO關鍵點測試開發集上達到了81.1的平均精度（AP）。

🚀 快速開始

使用以下代碼開始使用該模型：

import torch
import requests
import numpy as np

from PIL import Image

from transformers import (
    AutoProcessor,
    RTDetrForObjectDetection,
    VitPoseForPoseEstimation,
)

device = "cuda" if torch.cuda.is_available() else "cpu"

url = "http://images.cocodataset.org/val2017/000000000139.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# ------------------------------------------------------------------------
# 階段1. 在圖像上檢測人體
# ------------------------------------------------------------------------

# 你可以自行選擇檢測器
person_image_processor = AutoProcessor.from_pretrained("PekingU/rtdetr_r50vd_coco_o365")
person_model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r50vd_coco_o365", device_map=device)

inputs = person_image_processor(images=image, return_tensors="pt").to(device)

with torch.no_grad():
    outputs = person_model(**inputs)

results = person_image_processor.post_process_object_detection(
    outputs, target_sizes=torch.tensor([(image.height, image.width)]), threshold=0.3
)
result = results[0]  # 獲取第一張圖像的結果

# 在COCO數據集中，人體標籤對應索引0
person_boxes = result["boxes"][result["labels"] == 0]
person_boxes = person_boxes.cpu().numpy()

# 將邊界框從VOC (x1, y1, x2, y2) 格式轉換為COCO (x1, y1, w, h) 格式
person_boxes[:, 2] = person_boxes[:, 2] - person_boxes[:, 0]
person_boxes[:, 3] = person_boxes[:, 3] - person_boxes[:, 1]

# ------------------------------------------------------------------------
# 階段2. 為檢測到的每個人檢測關鍵點
# ------------------------------------------------------------------------

image_processor = AutoProcessor.from_pretrained("usyd-community/vitpose-plus-base")
model = VitPoseForPoseEstimation.from_pretrained("usyd-community/vitpose-plus-base", device_map=device)

inputs = image_processor(image, boxes=[person_boxes], return_tensors="pt").to(device)

# 這是MOE架構，我們需要為每張圖像指定數據集索引，範圍為0..5
inputs["dataset_index"] = torch.tensor([0], device=device)

with torch.no_grad():
    outputs = model(**inputs)

pose_results = image_processor.post_process_pose_estimation(outputs, boxes=[person_boxes], threshold=0.3)
image_pose_result = pose_results[0]  # 第一張圖像的結果

for i, person_pose in enumerate(image_pose_result):
    print(f"人物 #{i}")
    for keypoint, label, score in zip(
        person_pose["keypoints"], person_pose["labels"], person_pose["scores"]
    ):
        keypoint_name = model.config.id2label[label.item()]
        x, y = keypoint
        print(f" - {keypoint_name}: x={x.item():.2f}, y={y.item():.2f}, 分數={score.item():.2f}")

輸出結果：

人物 #0
 - 鼻子: x=428.81, y=171.53, 分數=0.92
 - 左眼: x=429.32, y=168.30, 分數=0.92
 - 右眼: x=428.84, y=168.47, 分數=0.82
 - 左耳: x=434.60, y=166.54, 分數=0.90
 - 右耳: x=440.14, y=165.80, 分數=0.80
 - 左肩膀: x=440.74, y=176.95, 分數=0.96
 - 右肩膀: x=444.06, y=177.52, 分數=0.68
 - 左肘: x=436.30, y=197.08, 分數=0.91
 - 右肘: x=432.29, y=201.22, 分數=0.79
 - 左手腕: x=429.91, y=217.90, 分數=0.84
 - 右手腕: x=421.08, y=212.72, 分數=0.90
 - 左髖: x=446.15, y=223.88, 分數=0.74
 - 右髖: x=449.32, y=223.45, 分數=0.65
 - 左膝: x=443.73, y=255.72, 分數=0.76
 - 右膝: x=450.72, y=255.21, 分數=0.73
 - 左踝: x=452.14, y=287.30, 分數=0.66
 - 右踝: x=456.02, y=285.99, 分數=0.72
人物 #1
 - 鼻子: x=398.22, y=181.60, 分數=0.88
 - 左眼: x=398.67, y=179.84, 分數=0.87
 - 右眼: x=396.07, y=179.44, 分數=0.87
 - 右耳: x=388.94, y=180.38, 分數=0.87
 - 左肩膀: x=397.11, y=194.19, 分數=0.71
 - 右肩膀: x=384.75, y=190.74, 分數=0.55

✨ 主要特性

儘管在設計中未考慮特定領域知識，但普通視覺Transformer在視覺識別任務中表現出了出色的性能。然而，在揭示這種簡單結構在姿態估計任務中的潛力方面，所做的工作還很少。在本文中，通過一個名為ViTPose的簡單基線模型，從模型結構的簡單性、模型大小的可擴展性、訓練範式的靈活性以及模型間知識的可遷移性等方面，展示了普通視覺Transformer在姿態估計方面令人驚訝的良好能力。具體來說，ViTPose採用普通的非分層視覺Transformer作為骨幹網絡，為給定的人物實例提取特徵，並使用輕量級解碼器進行姿態估計。通過利用Transformer可擴展的模型容量和高並行性，其參數可以從1億擴展到10億，在吞吐量和性能之間建立了新的帕累托最優前沿。此外，ViTPose在注意力類型、輸入分辨率、預訓練和微調策略以及處理多個姿態任務方面都非常靈活。還通過實驗證明，大型ViTPose模型的知識可以通過簡單的知識令牌輕鬆轉移到小型模型。實驗結果表明，基本的ViTPose模型在具有挑戰性的MS COCO關鍵點檢測基準上優於代表性方法，而最大的模型則創造了新的技術水平，即在MS COCO測試開發集上達到了80.9的AP。代碼和模型可在此處獲取。

📚 詳細文檔

模型詳情

這是一個已發佈在Hugging Face Hub上的🤗 transformers模型的模型卡，該模型卡是自動生成的。

開發者：Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao
資助方：ARC FL - 170100117和IH - 180100002
許可證：Apache - 2.0
移植到🤗 Transformers的人員：Sangbum Choi和Niels Rogge

模型來源

原始倉庫：https://github.com/ViTAE-Transformer/ViTPose
論文：https://arxiv.org/pdf/2204.12484
演示：https://huggingface.co/spaces?sort=trending&search=vitpose

模型用途

由ViTAE - Transformer團隊開發的ViTPose模型主要用於姿態估計任務。以下是該模型的一些直接用途：

人體姿態估計：該模型可用於估計圖像或視頻中人體的姿態，包括識別頭部、肩膀、肘部、手腕、臀部、膝蓋和腳踝等關鍵身體關節的位置。
動作識別：通過分析一段時間內的姿態，該模型有助於識別各種人類動作和活動。
監控：在安全和監控應用中，ViTPose可用於監控和分析公共場所或私人場所中的人類行為。
健康與健身：該模型可用於健身應用程序，以跟蹤和分析運動姿態，提供關於姿勢和技術的反饋。
遊戲和動畫：ViTPose可集成到遊戲和動畫系統中，以創建更逼真的角色動作和交互。

偏差、風險和侷限性

在本文中，提出了一個簡單而有效的用於姿態估計的視覺Transformer基線模型，即ViTPose。儘管在結構上沒有精心設計，但ViTPose在MS COCO數據集上取得了最先進的性能。然而，ViTPose的潛力尚未通過更先進的技術（如複雜的解碼器或FPN結構）得到充分挖掘，這些技術可能會進一步提高其性能。此外，儘管ViTPose展示了諸如簡單性、可擴展性、靈活性和可遷移性等令人興奮的特性，但還可以進行更多的研究工作，例如探索基於提示的調優以進一步展示ViTPose的靈活性。此外，相信ViTPose也可以應用於其他姿態估計數據集，例如動物姿態估計 [47, 9, 45] 和麵部關鍵點檢測 [21, 6]，這些將作為未來的工作。

訓練詳情

訓練數據

使用MS COCO [28]、AI Challenger [41]、MPII [3] 和CrowdPose [22] 數據集進行訓練和評估。OCHuman [54] 數據集僅用於評估階段，以衡量模型處理遮擋人物的性能。MS COCO數據集包含118K張圖像和150K個人體實例，每個實例最多有17個關鍵點標註，用於訓練，該數據集遵循CC - BY - 4.0許可證。MPII數據集遵循BSD許可證，包含15K張圖像和22K個人體實例用於訓練，該數據集中每個實例最多標註16個人體關鍵點。AI Challenger數據集更大，包含超過200K張訓練圖像和350個人體實例，每個實例最多標註14個關鍵點。OCHuman數據集包含大量遮擋的人體實例，僅用於驗證和測試集，包括4K張圖像和8K個實例。

訓練超參數

訓練機制：

速度、大小、時間

image/png

評估

OCHuman驗證集和測試集

為了評估人體姿態估計模型在嚴重遮擋人體實例上的性能，在OCHuman驗證集和測試集上使用真實邊界框對ViTPose變體和代表性模型進行了測試。由於OCHuman數據集中並非所有人體實例都有標註，使用額外的人體檢測器會導致大量“誤報”邊界框，無法反映姿態估計模型的真實能力，因此未採用額外的人體檢測器。具體來說，使用了對應於MS COCO數據集的ViTPose解碼器頭，因為MS COCO和OCHuman數據集中的關鍵點定義相同。

MPII驗證集

在MPII驗證集上使用真實邊界框評估了ViTPose和代表性模型的性能。遵循MPII的默認設置，使用PCKh作為性能評估指標。

評估結果

image/png

模型架構和目標

image/png

硬件

模型基於mmpose代碼庫在8個A100 GPU上進行訓練。

🔧 技術細節

信息表格

屬性	詳情
模型類型	用於人體姿態估計的視覺Transformer模型
訓練數據	MS COCO、AI Challenger、MPII、CrowdPose數據集用於訓練和評估；OCHuman數據集用於評估遮擋人體性能

📄 許可證

該模型遵循Apache - 2.0許可證。

🔖 引用

@article{xu2022vitposesimplevisiontransformer,
  title={ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation},
  author={Yufei Xu and Jing Zhang and Qiming Zhang and Dacheng Tao},
  year={2022},
  eprint={2204.12484},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2204.12484}
}