V

Vitpose Base Simple

由danelcsb開發
ViTPose是基於普通視覺Transformer的人體姿態估計基線模型,通過簡潔架構實現高性能關鍵點檢測
下載量 20
發布時間 : 11/20/2024

模型概述

該模型採用非層級化視覺Transformer作為骨幹網絡,配備輕量級解碼器進行姿態估計,在MS COCO數據集上達到81.1 AP的優異表現

模型特點

架構簡潔性
僅使用普通視覺Transformer作為骨幹網絡,無需複雜設計即可實現高性能姿態估計
規模可擴展
模型參數量可從1億靈活擴展至10億,在吞吐量與性能間建立帕累託前沿
訓練靈活性
支持多種注意力類型、輸入分辨率、預訓練策略及多任務處理方案
知識可遷移
大型模型知識可通過簡單知識令牌遷移至小型模型

模型能力

人體關鍵點檢測
多尺度姿態估計
遮擋場景處理
即時姿態分析

使用案例

健康健身
運動姿勢矯正
即時追蹤健身動作關鍵點,提供規範化反饋
安防監控
行為模式分析
檢測公共場所人體姿態異常行為
遊戲動畫
動作捕捉
生成逼真角色動畫
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase