V

Vitpose Plus Huge

由usyd-community開發
ViTPose++是基於視覺Transformer的人體姿態估計基礎模型,在MS COCO關鍵點測試集上達到81.1 AP的優異表現。
下載量 14.49k
發布時間 : 1/12/2025

模型概述

用於人體姿態估計的視覺Transformer模型,通過簡單架構實現高性能,支持從1億到10億參數的可擴展規模。

模型特點

簡單架構
使用標準視覺Transformer作為骨幹,無需複雜領域知識設計
卓越可擴展性
參數規模可從1億擴展到10億,在吞吐量和性能間建立新基準
高度靈活性
支持多種注意力類型、輸入分辨率及訓練策略
知識可遷移性
大型模型知識可通過知識令牌輕鬆遷移到小型模型

模型能力

人體姿態估計
多人關鍵點檢測
遮擋場景處理

使用案例

健康與健身
運動姿態分析
即時跟蹤健身動作的關鍵點位置
提供姿勢矯正反饋
智能監控
行為識別
通過連續姿態變化識別異常行為
數字內容創作
動畫驅動
將真實人體動作映射到虛擬角色
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase