ViTPose開源人體姿態估計模型 - 簡單架構在多基準測試有優異表現

首頁

Vitpose Base Coco Aic Mpii

由usyd-community開發

ViTPose是一個基於視覺Transformer的人體姿態估計模型，通過簡單的架構設計在MS COCO等基準上取得了優異表現。

姿態估計

Transformers

英語開源協議:Apache-2.0 #人體姿態估計 #視覺Transformer #多數據集訓練

下載量 38

發布時間 : 1/8/2025

模型概述

ViTPose使用普通視覺Transformer作為骨幹網絡，配合輕量級解碼器進行人體姿態估計，支持從1億到10億參數規模的擴展。

模型特點

簡單架構

僅使用標準視覺Transformer結構，無需複雜領域知識設計

卓越擴展性

參數規模可從1億擴展到10億，建立性能-吞吐量新前沿

靈活訓練

支持多種注意力類型、輸入分辨率、預訓練和微調策略

知識遷移

支持通過知識令牌將大模型知識遷移到小模型

模型能力

人體姿態估計

多人關鍵點檢測

遮擋場景分析

使用案例

健康與健身

運動姿態分析

即時監測健身動作的標準性

可提供17個關鍵點的精確位置反饋

智能監控

行為分析

公共場所異常行為檢測

在遮擋場景下仍保持80.9 AP的準確率

數字娛樂

動作捕捉

遊戲角色動作驅動

支持多人即時姿態估計

🚀 VitPose模型介紹

ViTPose是用於人體姿態估計的簡單視覺Transformer基線模型，ViTPose+則是用於通用人體姿態估計的視覺Transformer基礎模型。該模型在MS COCO關鍵點測試開發集上達到了81.1的平均精度（AP）。

🚀 快速開始

以下是使用該模型的示例代碼：

import torch
import requests
import numpy as np

from PIL import Image

from transformers import (
    AutoProcessor,
    RTDetrForObjectDetection,
    VitPoseForPoseEstimation,
)

device = "cuda" if torch.cuda.is_available() else "cpu"

url = "http://images.cocodataset.org/val2017/000000000139.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# ------------------------------------------------------------------------
# Stage 1. Detect humans on the image
# ------------------------------------------------------------------------

# You can choose detector by your choice
person_image_processor = AutoProcessor.from_pretrained("PekingU/rtdetr_r50vd_coco_o365")
person_model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r50vd_coco_o365", device_map=device)

inputs = person_image_processor(images=image, return_tensors="pt").to(device)

with torch.no_grad():
    outputs = person_model(**inputs)

results = person_image_processor.post_process_object_detection(
    outputs, target_sizes=torch.tensor([(image.height, image.width)]), threshold=0.3
)
result = results[0]  # take first image results

# Human label refers 0 index in COCO dataset
person_boxes = result["boxes"][result["labels"] == 0]
person_boxes = person_boxes.cpu().numpy()

# Convert boxes from VOC (x1, y1, x2, y2) to COCO (x1, y1, w, h) format
person_boxes[:, 2] = person_boxes[:, 2] - person_boxes[:, 0]
person_boxes[:, 3] = person_boxes[:, 3] - person_boxes[:, 1]

# ------------------------------------------------------------------------
# Stage 2. Detect keypoints for each person found
# ------------------------------------------------------------------------

image_processor = AutoProcessor.from_pretrained("usyd-community/vitpose-base-coco-aic-mpii")
model = VitPoseForPoseEstimation.from_pretrained("usyd-community/vitpose-base-coco-aic-mpii", device_map=device)

inputs = image_processor(image, boxes=[person_boxes], return_tensors="pt").to(device)

with torch.no_grad():
    outputs = model(**inputs)

pose_results = image_processor.post_process_pose_estimation(outputs, boxes=[person_boxes], threshold=0.3)
image_pose_result = pose_results[0]  # results for first image

for i, person_pose in enumerate(image_pose_result):
    print(f"Person #{i}")
    for keypoint, label, score in zip(
        person_pose["keypoints"], person_pose["labels"], person_pose["scores"]
    ):
        keypoint_name = model.config.id2label[label.item()]
        x, y = keypoint
        print(f" - {keypoint_name}: x={x.item():.2f}, y={y.item():.2f}, score={score.item():.2f}")

輸出示例：

Person #0
 - Nose: x=428.70, y=170.20, score=0.90
 - L_Eye: x=429.26, y=167.11, score=0.94
 - R_Eye: x=429.36, y=167.39, score=0.78
 - L_Ear: x=432.93, y=167.07, score=0.88
 - R_Ear: x=441.39, y=166.26, score=0.86
 - L_Shoulder: x=439.87, y=176.99, score=0.94
 - R_Shoulder: x=444.96, y=177.49, score=0.70
 - L_Elbow: x=436.33, y=196.93, score=0.98
 - R_Elbow: x=431.81, y=200.50, score=0.84
 - L_Wrist: x=430.75, y=217.52, score=0.92
 - R_Wrist: x=421.83, y=212.19, score=0.86
 - L_Hip: x=444.97, y=223.51, score=0.79
 - R_Hip: x=452.21, y=222.88, score=0.70
 - L_Knee: x=442.63, y=255.64, score=0.78
 - R_Knee: x=452.44, y=255.15, score=0.83
 - L_Ankle: x=444.95, y=288.12, score=0.63
 - R_Ankle: x=456.43, y=286.81, score=0.86
Person #1
 - Nose: x=398.27, y=181.73, score=0.84
 - L_Eye: x=398.43, y=179.77, score=0.85
 - R_Eye: x=396.03, y=179.55, score=0.85
 - R_Ear: x=389.00, y=180.26, score=0.84
 - L_Shoulder: x=397.21, y=194.18, score=0.73
 - R_Shoulder: x=384.42, y=190.45, score=0.56

✨ 主要特性

結構簡單：ViTPose採用簡單且非分層的視覺Transformer作為骨幹網絡，用於提取給定人物實例的特徵，並使用輕量級解碼器進行姿態估計。
可擴展性：利用Transformer可擴展的模型容量和高並行性，模型參數可以從1億擴展到10億，在吞吐量和性能之間達到了新的帕累托最優。
靈活性：在注意力類型、輸入分辨率、預訓練和微調策略以及處理多個姿態任務方面具有很高的靈活性。
知識可遷移性：通過簡單的知識令牌，可以輕鬆地將大型ViTPose模型的知識遷移到小型模型中。

📚 詳細文檔

模型詳情

儘管在設計中沒有考慮特定的領域知識，但普通的視覺Transformer在視覺識別任務中表現出了出色的性能。然而，很少有人努力揭示這種簡單結構在姿態估計任務中的潛力。在本文中，作者通過一個名為ViTPose的簡單基線模型，從模型結構的簡單性、模型大小的可擴展性、訓練範式的靈活性以及模型之間的知識可遷移性等方面，展示了普通視覺Transformer在姿態估計方面令人驚訝的良好能力。

模型描述

開發者：Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao
資助方：ARC FL - 170100117和IH - 180100002
許可證：Apache - 2.0
移植到🤗 Transformers的人員：Sangbum Choi和Niels Rogge

模型來源

原始倉庫：https://github.com/ViTAE - Transformer/ViTPose
論文：https://arxiv.org/pdf/2204.12484
演示：https://huggingface.co/spaces?sort=trending&search=vitpose

應用場景

人體姿態估計：該模型可用於估計圖像或視頻中人體的姿態，識別頭部、肩部、肘部、手腕、臀部、膝蓋和腳踝等關鍵身體關節的位置。
動作識別：通過分析一段時間內的姿態，該模型有助於識別各種人類動作和活動。
監控：在安全和監控應用中，ViTPose可用於監控和分析公共場所或私人場所中的人類行為。
健康與健身：該模型可用於健身應用程序，跟蹤和分析運動姿態，提供關於姿勢和技術的反饋。
遊戲和動畫：ViTPose可集成到遊戲和動畫系統中，創建更逼真的角色動作和交互。

偏差、風險和侷限性

儘管ViTPose在MS COCO數據集上取得了最優性能，但該模型的潛力尚未通過更先進的技術（如複雜的解碼器或FPN結構）得到充分挖掘，這些技術可能會進一步提高性能。此外，雖然ViTPose展示了簡單性、可擴展性、靈活性和可遷移性等令人興奮的特性，但還需要更多的研究工作，例如探索基於提示的調優，以進一步展示ViTPose的靈活性。作者認為ViTPose也可以應用於其他姿態估計數據集，如動物姿態估計和麵部關鍵點檢測。

訓練詳情

訓練數據

使用MS COCO、AI Challenger、MPII和CrowdPose數據集進行訓練和評估。OCHuman數據集僅用於評估階段，以衡量模型處理遮擋人物的性能。

MS COCO數據集：包含118K張圖像和150K個人體實例，每個實例最多有17個關鍵點註釋，該數據集遵循CC - BY - 4.0許可證。
MPII數據集：遵循BSD許可證，包含15K張圖像和22K個人體實例，每個實例最多註釋16個人體關鍵點。
AI Challenger數據集：更大，包含超過200K張訓練圖像和350個人體實例，每個實例最多註釋14個關鍵點。
OCHuman數據集：包含嚴重遮擋的人體實例，僅用於驗證和測試集，包括4K張圖像和8K個實例。

訓練超參數

訓練機制：![image/png](https://cdn - uploads.huggingface.co/production/uploads/6579e0eaa9e58aec614e9d97/Gj6gGcIGO3J5HD2MAB_4C.png)

速度、大小、時間

![image/png](https://cdn - uploads.huggingface.co/production/uploads/6579e0eaa9e58aec614e9d97/rsCmn48SAvhi8xwJhX8h5.png)

評估

OCHuman驗證和測試集：為了評估人體姿態估計模型在嚴重遮擋人體實例上的性能，作者在OCHuman驗證和測試集上使用真實邊界框測試了ViTPose變體和代表性模型。由於OCHuman數據集中並非所有人體實例都有註釋，使用額外的人體檢測器會導致大量“誤報”邊界框，無法反映姿態估計模型的真實能力，因此未採用額外的人體檢測器。具體來說，使用了對應於MS COCO數據集的ViTPose解碼器頭，因為MS COCO和OCHuman數據集中的關鍵點定義相同。
MPII驗證集：在MPII驗證集上使用真實邊界框評估了ViTPose和代表性模型的性能。遵循MPII的默認設置，使用PCKh作為性能評估指標。

結果

![image/png](https://cdn - uploads.huggingface.co/production/uploads/6579e0eaa9e58aec614e9d97/FcHVFdUmCuT2m0wzB8QSS.png)

模型架構和目標

![image/png](https://cdn - uploads.huggingface.co/production/uploads/6579e0eaa9e58aec614e9d97/kf3e1ifJkVtOMbISvmMsM.png)

硬件

模型基於mmpose代碼庫在8個A100 GPU上進行訓練。

📄 許可證

本模型採用Apache - 2.0許可證。

🔧 技術細節

在姿態估計任務中，ViTPose通過簡單的結構和靈活的設計，充分發揮了Transformer的優勢。其使用普通的視覺Transformer作為骨幹網絡，能夠有效地提取特徵，並且在不同的訓練和應用場景中表現出了良好的適應性。通過實驗驗證，該模型在多個數據集上取得了優異的成績，證明了其在人體姿態估計領域的有效性和潛力。

📚 引用

@article{xu2022vitposesimplevisiontransformer,
  title={ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation},
  author={Yufei Xu and Jing Zhang and Qiming Zhang and Dacheng Tao},
  year={2022},
  eprint={2204.12484},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2204.12484}
}