V

Vitpose Base Coco Aic Mpii

由usyd-community開發
ViTPose是一個基於視覺Transformer的人體姿態估計模型,通過簡單的架構設計在MS COCO等基準上取得了優異表現。
下載量 38
發布時間 : 1/8/2025

模型概述

ViTPose使用普通視覺Transformer作為骨幹網絡,配合輕量級解碼器進行人體姿態估計,支持從1億到10億參數規模的擴展。

模型特點

簡單架構
僅使用標準視覺Transformer結構,無需複雜領域知識設計
卓越擴展性
參數規模可從1億擴展到10億,建立性能-吞吐量新前沿
靈活訓練
支持多種注意力類型、輸入分辨率、預訓練和微調策略
知識遷移
支持通過知識令牌將大模型知識遷移到小模型

模型能力

人體姿態估計
多人關鍵點檢測
遮擋場景分析

使用案例

健康與健身
運動姿態分析
即時監測健身動作的標準性
可提供17個關鍵點的精確位置反饋
智能監控
行為分析
公共場所異常行為檢測
在遮擋場景下仍保持80.9 AP的準確率
數字娛樂
動作捕捉
遊戲角色動作驅動
支持多人即時姿態估計
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase