V

Vitpose Plus Small

由usyd-community開發
ViTPose++是基於視覺Transformer的人體姿態估計模型,在MS COCO關鍵點檢測基準上達到81.1 AP的優異表現。
下載量 30.02k
發布時間 : 1/12/2025

模型概述

ViTPose++是一個簡單而有效的視覺Transformer基線模型,用於人體姿態估計任務。它採用普通非分層的視覺Transformer作為骨幹網絡,配合輕量級解碼器進行姿態估計。

模型特點

簡單架構
使用普通視覺Transformer作為骨幹,無需複雜設計即可實現高性能
高度可擴展
模型參數可從1億擴展到10億,在吞吐量和性能間建立帕累託前沿
訓練靈活性
支持多種注意力類型、輸入分辨率、預訓練和微調策略
知識可遷移
大型模型知識可通過簡單知識標記遷移到小型模型

模型能力

人體姿態估計
多人關鍵點檢測
遮擋情況下姿態估計

使用案例

健康與健身
運動姿勢分析
用於健身應用分析用戶運動姿勢
提供準確的關鍵點定位,幫助糾正姿勢
監控與安全
行為分析
監控場景中的人類行為分析
可識別異常行為模式
娛樂
遊戲動畫
為遊戲角色生成逼真動作
實現自然的人物動作捕捉
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase