V

Vitpose Plus Small

Developed by usyd-community
ViTPose++是基於視覺Transformer的人體姿態估計模型,在MS COCO關鍵點檢測基準上達到81.1 AP的優異表現。
Downloads 30.02k
Release Time : 1/12/2025

Model Overview

ViTPose++是一個簡單而有效的視覺Transformer基線模型,用於人體姿態估計任務。它採用普通非分層的視覺Transformer作為骨幹網絡,配合輕量級解碼器進行姿態估計。

Model Features

簡單架構
使用普通視覺Transformer作為骨幹,無需複雜設計即可實現高性能
高度可擴展
模型參數可從1億擴展到10億,在吞吐量和性能間建立帕累託前沿
訓練靈活性
支持多種注意力類型、輸入分辨率、預訓練和微調策略
知識可遷移
大型模型知識可通過簡單知識標記遷移到小型模型

Model Capabilities

人體姿態估計
多人關鍵點檢測
遮擋情況下姿態估計

Use Cases

健康與健身
運動姿勢分析
用於健身應用分析用戶運動姿勢
提供準確的關鍵點定位,幫助糾正姿勢
監控與安全
行為分析
監控場景中的人類行為分析
可識別異常行為模式
娛樂
遊戲動畫
為遊戲角色生成逼真動作
實現自然的人物動作捕捉
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase