V

Vitpose Base Simple

由usyd-community開發
ViTPose是基於視覺Transformer的人體姿態估計模型,在MS COCO關鍵點測試集上達到81.1 AP的精度,具有模型簡潔、規模可擴展、訓練靈活等優勢
下載量 51.40k
發布時間 : 1/8/2025

模型概述

用於人體姿態估計的視覺Transformer基線模型,可檢測圖像/視頻中的人體關鍵點

模型特點

模型簡潔性
採用樸素視覺Transformer結構,無需複雜領域知識設計
規模可擴展
參數量可從1億靈活擴展至10億,建立吞吐量與性能的帕累託前沿
訓練靈活性
支持多種注意力類型、輸入分辨率、預訓練/微調策略及多任務處理
知識遷移性
大型模型知識可通過簡單知識令牌有效遷移至小型模型

模型能力

人體關鍵點檢測
多人體姿態估計
遮擋場景處理

使用案例

健康健身
健身動作矯正
即時監測用戶健身姿勢準確性
提供17個關鍵點座標及置信度評分
安防監控
異常行為檢測
分析公共場所人體姿態特徵
可識別跌倒、攀爬等異常動作
遊戲動畫
動作捕捉
將真人動作映射至虛擬角色
生成流暢自然的角色動畫
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase