2025年最佳 28 款姿態估計工具

Superpoint
其他
SuperPoint是一種自監督訓練的全卷積網絡,用於興趣點檢測和描述。
姿態估計 Transformers
S
magic-leap-community
59.12k
13
Vitpose Base Simple
Apache-2.0
ViTPose是基於視覺Transformer的人體姿態估計模型,在MS COCO關鍵點測試集上達到81.1 AP的精度,具有模型簡潔、規模可擴展、訓練靈活等優勢
姿態估計 Transformers 英語
V
usyd-community
51.40k
20
Vitpose Plus Small
Apache-2.0
ViTPose++是基於視覺Transformer的人體姿態估計模型,在MS COCO關鍵點檢測基準上達到81.1 AP的優異表現。
姿態估計 Transformers
V
usyd-community
30.02k
2
Vitpose Plus Base
Apache-2.0
ViTPose是一個基於視覺Transformer的人體姿態估計模型,採用簡潔設計在MS COCO關鍵點檢測基準上取得81.1 AP的優異表現。
姿態估計 Transformers 英語
V
usyd-community
22.26k
10
Superglue Outdoor
其他
SuperGlue是一種基於圖神經網絡的特徵匹配模型,用於匹配圖像中的興趣點,適用於圖像匹配和姿態估計任務。
姿態估計 Transformers
S
magic-leap-community
18.39k
2
Vitpose Plus Huge
Apache-2.0
ViTPose++是基於視覺Transformer的人體姿態估計基礎模型,在MS COCO關鍵點測試集上達到81.1 AP的優異表現。
姿態估計 Transformers
V
usyd-community
14.49k
6
Img2pose
img2pose是一個基於Faster R-CNN的模型,用於預測照片中所有人臉的六自由度姿態(6DoF),並能將3D人臉投影到2D平面。
姿態估計 Safetensors
I
py-feat
4,440
0
Vitpose Plus Large
Apache-2.0
ViTPose++是基於視覺Transformer的人體姿態估計基礎模型,在MS COCO關鍵點測試集上達到81.1 AP的優異表現。
姿態估計 Transformers
V
usyd-community
1,731
1
Synthpose Vitpose Huge Hf
Apache-2.0
SynthPose是基於VitPose巨型主幹網絡的關鍵點檢測模型,通過合成數據微調預測52個人體關鍵點,適用於運動學分析。
姿態估計 Transformers
S
stanfordmimi
1,320
1
Sapiens Pose 1b Torchscript
Sapiens是基於3億張1024x1024分辨率人體圖像預訓練的視覺Transformer模型,專為高精度姿態估計任務設計。
姿態估計 英語
S
facebook
1,245
7
Synthpose Vitpose Base Hf
Apache-2.0
SynthPose是基於VitPose Base的2D人體姿態估計模型,通過合成數據微調,可預測52個解剖學關鍵點
姿態估計 Transformers
S
stanfordmimi
931
3
Reloc3r 512
Reloc3r是一個簡潔高效的相機姿態估計框架,結合了預訓練的雙視角相對相機姿態迴歸網絡與多視角運動平均模塊。
姿態估計
R
siyan824
840
4
Vitpose Base
Apache-2.0
基於視覺Transformer的人體姿態估計模型,在MS COCO關鍵點測試集上達到81.1 AP的優異表現
姿態估計 Transformers 英語
V
usyd-community
761
9
Lightglue Superpoint
其他
LightGlue是一個高效的關鍵點檢測和匹配模型,用於計算機視覺中的特徵匹配和姿態估計問題。
姿態估計 Transformers
L
ETH-CVG
316
20
Reloc3r 224
Reloc3r 是一個用於視覺定位的大規模相對相機姿態迴歸模型,具有可泛化、快速且精準的特點。
姿態估計
R
siyan824
172
2
Vitpose Base Simple
這是一個基於transformers的關鍵點檢測模型,用於識別圖像中的關鍵點位置
姿態估計 Transformers
V
nielsr
109
1
Sapiens Pose Bbox Detector
Apache-2.0
RTMDet檢測器是專為配合Sapiens姿態估計模型設計的高效檢測器,用於人體關鍵點檢測任務。
姿態估計
S
facebook
107
3
Sapiens Pose 1b
Pose-Sapiens-1B 是一個基於視覺 Transformer 架構的高分辨率人體姿態估計模型,在 3 億張 1024x1024 分辨率的人類圖像上預訓練,支持 308 個關鍵點檢測(身體、面部、手部和足部)。
姿態估計 英語
S
facebook
82
4
Poseless 3B
Apache-2.0
Poseless-3B 是一種基於視覺語言模型(VLM)的機器人手部控制框架,能夠直接將2D圖像映射到關節角度,無需顯式姿態估計。
姿態估計 Transformers
P
Menlo
65
10
Sapiens Pose 0.3b Torchscript
Sapiens是基於3億張高分辨率人類圖像預訓練的視覺Transformer模型,專為姿態估計任務設計,支持308個關鍵點檢測。
姿態估計 英語
S
facebook
55
1
Vitpose Base Coco Aic Mpii
Apache-2.0
ViTPose是一個基於視覺Transformer的人體姿態估計模型,通過簡單的架構設計在MS COCO等基準上取得了優異表現。
姿態估計 Transformers 英語
V
usyd-community
38
1
Vitpose Base Simple
基於ViT架構的輕量級姿態估計模型,用於人體關鍵點檢測
姿態估計 Transformers
V
onnx-community
31
3
Sapiens Pose 1b Bfloat16
Sapiens是一個基於3億張1024x1024分辨率人類圖像預訓練的視覺變換器系列模型,專注於以人為中心的視覺任務。
姿態估計 英語
S
facebook
31
0
Sapiens Pose 0.6b Torchscript
Sapiens是基於3億張高分辨率人類圖像預訓練的視覺Transformer模型,專為姿態估計任務設計,支持308個關鍵點檢測。
姿態估計 英語
S
facebook
29
0
Diffusion Pusht Keypoints
Apache-2.0
基於Diffusion Policy訓練的機器人控制模型,專為PushT任務設計,使用關鍵點觀測數據進行訓練
姿態估計 Transformers
D
lerobot
21
0
Vitpose Base Simple
Apache-2.0
ViTPose是基於普通視覺Transformer的人體姿態估計基線模型,通過簡潔架構實現高性能關鍵點檢測
姿態估計 Transformers 英語
V
danelcsb
20
1
Sapiens Pose 0.6b
Sapiens 是一個基於 3 億張高分辨率人類圖像預訓練的視覺 Transformer 模型家族,專注於以人為中心的視覺任務。
姿態估計 英語
S
facebook
19
2
Vitpose
該模型用於檢測圖像或視頻中的關鍵點,適用於人體姿態估計、面部特徵點檢測等任務。
姿態估計 Transformers
V
shauray
19
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase