開源Sapiens-pose-1b-torchscript模型 - 高精度人體姿態估計好幫手

首頁

Sapiens Pose 1b Torchscript

由facebook開發

Sapiens是基於3億張1024x1024分辨率人體圖像預訓練的視覺Transformer模型，專為高精度姿態估計任務設計。

姿態估計英語#高分辨率姿態估計 #全身多部位關鍵點 #十億參數大模型

下載量 1,245

發布時間 : 9/9/2024

模型概述

該模型用於單張圖像上的308個關鍵點估計，覆蓋身體、面部、手部和足部，支持1K高分辨率推理，具有卓越的泛化能力。

模型特點

高分辨率支持

原生支持1K高分辨率推理，圖像輸入尺寸為1024x768。

多部位關鍵點檢測

可同時檢測身體、面部、手部和足部共308個關鍵點。

強大泛化能力

即使在標註數據稀缺或完全合成的情況下，也能展現出對真實數據的卓越泛化能力。

高效計算

計算量為4.647萬億次浮點運算，平衡了精度與效率。

模型能力

人體姿態估計

面部關鍵點檢測

手部關鍵點檢測

足部關鍵點檢測

高分辨率圖像處理

使用案例

運動分析

運動員動作分析

用於分析運動員的動作姿態，幫助改進技術動作。

可精確捕捉全身308個關鍵點

人機交互

手勢識別

用於識別複雜的手勢動作，實現自然的人機交互。

高精度手部關鍵點檢測

虛擬現實

虛擬形象驅動

用於即時驅動虛擬形象，實現逼真的動作捕捉。

全身姿態的即時估計

🚀 Pose-Sapiens-1B-Torchscript

Pose-Sapiens-1B-Torchscript是一個關鍵點檢測模型，基於視覺變換器架構，在3億張1024x1024分辨率的人類圖像上進行預訓練。該模型能夠泛化到自然場景中，即使在標記數據稀缺或完全合成的情況下，也能表現出出色的性能。

✨ 主要特性

Sapiens系列模型在3億張1024x1024分辨率的人類圖像上進行預訓練，微調後可很好地泛化到自然場景。
Sapiens-1B原生支持1K高分辨率推理，對自然數據有出色的泛化能力。

📚 詳細文檔

模型詳情

Sapiens是一系列視覺變換器模型，在3億張分辨率為1024 x 1024的人類圖像上進行了預訓練。這些預訓練模型在針對以人類為中心的視覺任務進行微調後，能夠很好地泛化到自然場景中。 Sapiens-1B原生支持1K高分辨率推理。最終得到的模型即使在標記數據稀缺或完全合成的情況下，對自然數據也表現出顯著的泛化能力。

屬性	詳情
開發者	Meta
模型類型	視覺變換器
許可證	知識共享署名-非商業性使用 4.0 國際許可協議
任務	姿態估計
格式	torchscript
文件	sapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2

模型卡片

屬性	詳情
圖像尺寸	1024 x 768 (高 x 寬)
參數數量	11.69億
浮點運算次數	4.647 TFLOPs
補丁尺寸	16 x 16
嵌入維度	1536
層數	40
頭數	24
前饋通道數	6144