V

Vitpose Base

由usyd-community開發
基於視覺Transformer的人體姿態估計模型,在MS COCO關鍵點測試集上達到81.1 AP的優異表現
下載量 761
發布時間 : 1/8/2025

模型概述

ViTPose是一個用於人體姿態估計的視覺Transformer模型,通過簡單而有效的架構實現高精度關鍵點檢測。

模型特點

簡潔架構
採用平面非層級式視覺Transformer骨幹網絡,配合輕量級解碼器,結構簡單高效
高度可擴展
模型參數量可從1億擴展至10億,在吞吐量與性能間建立新的帕累託前沿
靈活訓練
支持多種注意力類型、輸入分辨率、預訓練與微調策略,適應多姿態任務
知識遷移
大型模型知識可通過簡單的知識令牌輕鬆遷移至小型模型

模型能力

人體關鍵點檢測
多人姿態估計
遮擋場景姿態分析

使用案例

行為分析
健身動作監測
即時分析用戶訓練姿勢,提供規範性反饋
提高訓練安全性及效果
安防監控
監測公共場所異常行為
提升安防系統智能化水平
數字內容創作
遊戲動畫
生成逼真的角色動作
增強遊戲沉浸感
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase