V

Vitpose Plus Base

由usyd-community開發
ViTPose是一個基於視覺Transformer的人體姿態估計模型,採用簡潔設計在MS COCO關鍵點檢測基準上取得81.1 AP的優異表現。
下載量 22.26k
發布時間 : 1/8/2025

模型概述

該模型通過樸素視覺Transformer架構實現高效人體姿態估計,支持從100M到1B參數規模的靈活擴展,具有高度並行性和知識遷移能力。

模型特點

簡潔架構設計
採用非層級化視覺Transformer骨幹網絡,無需複雜領域知識設計即實現高性能
靈活可擴展
參數規模可從100M擴展至1B,在吞吐量與性能間建立帕累託前沿
多任務適應性
支持注意力類型、輸入分辨率、預訓練策略的靈活調整,可處理多姿態任務
知識可遷移性
大型模型知識可通過知識令牌輕鬆遷移至小型模型

模型能力

人體姿態估計
多人關鍵點檢測
遮擋場景分析

使用案例

健康健身
運動姿勢分析
即時追蹤健身動作關鍵點
提供動作規範性反饋
安防監控
行為監測
公共場所異常行為識別
數字娛樂
動作捕捉
遊戲角色動作生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase