V

Vitpose Plus Large

由usyd-community開發
ViTPose++是基於視覺Transformer的人體姿態估計基礎模型,在MS COCO關鍵點測試集上達到81.1 AP的優異表現。
下載量 1,731
發布時間 : 1/12/2025

模型概述

ViTPose++是一個簡單而有效的視覺Transformer基線模型,用於人體姿態估計任務。它採用非分層的視覺Transformer作為骨幹網絡,結合輕量級解碼器進行姿態估計,具有模型簡單性、可擴展性和靈活性等特點。

模型特點

簡單而有效的架構
使用普通的視覺Transformer作為骨幹網絡,無需複雜的領域特定設計即可實現高性能
高度可擴展
模型參數可以從100M擴展到1B,在性能和吞吐量之間建立新的帕累託前沿
訓練靈活性
支持多種注意力類型、輸入分辨率、預訓練和微調策略,可處理多個姿態任務
知識可遷移性
大型模型的知識可以通過簡單的知識令牌輕鬆遷移到小型模型中

模型能力

人體姿態估計
關鍵點檢測
多人姿態識別
遮擋人體姿態估計

使用案例

計算機視覺
人體姿態分析
檢測圖像或視頻中的人體關鍵點位置
在MS COCO測試集上達到80.9 AP
動作識別
通過分析連續幀中的姿態變化識別人類動作
健康與健身
運動姿態分析
跟蹤和分析健身運動中的姿勢和技巧
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase