Superpoint
其他
SuperPoint是一种自监督训练的全卷积网络,用于兴趣点检测和描述。
姿态估计
Transformers

S
magic-leap-community
59.12k
13
Vitpose Base Simple
Apache-2.0
ViTPose是基于视觉Transformer的人体姿态估计模型,在MS COCO关键点测试集上达到81.1 AP的精度,具有模型简洁、规模可扩展、训练灵活等优势
姿态估计
Transformers 英语

V
usyd-community
51.40k
20
Vitpose Plus Small
Apache-2.0
ViTPose++是基于视觉Transformer的人体姿态估计模型,在MS COCO关键点检测基准上达到81.1 AP的优异表现。
姿态估计
Transformers

V
usyd-community
30.02k
2
Vitpose Plus Base
Apache-2.0
ViTPose是一个基于视觉Transformer的人体姿态估计模型,采用简洁设计在MS COCO关键点检测基准上取得81.1 AP的优异表现。
姿态估计
Transformers 英语

V
usyd-community
22.26k
10
Superglue Outdoor
其他
SuperGlue是一种基于图神经网络的特征匹配模型,用于匹配图像中的兴趣点,适用于图像匹配和姿态估计任务。
姿态估计
Transformers

S
magic-leap-community
18.39k
2
Vitpose Plus Huge
Apache-2.0
ViTPose++是基于视觉Transformer的人体姿态估计基础模型,在MS COCO关键点测试集上达到81.1 AP的优异表现。
姿态估计
Transformers

V
usyd-community
14.49k
6
Img2pose
img2pose是一个基于Faster R-CNN的模型,用于预测照片中所有人脸的六自由度姿态(6DoF),并能将3D人脸投影到2D平面。
姿态估计
Safetensors
I
py-feat
4,440
0
Vitpose Plus Large
Apache-2.0
ViTPose++是基于视觉Transformer的人体姿态估计基础模型,在MS COCO关键点测试集上达到81.1 AP的优异表现。
姿态估计
Transformers

V
usyd-community
1,731
1
Synthpose Vitpose Huge Hf
Apache-2.0
SynthPose是基于VitPose巨型主干网络的关键点检测模型,通过合成数据微调预测52个人体关键点,适用于运动学分析。
姿态估计
Transformers

S
stanfordmimi
1,320
1
Sapiens Pose 1b Torchscript
Sapiens是基于3亿张1024x1024分辨率人体图像预训练的视觉Transformer模型,专为高精度姿态估计任务设计。
姿态估计 英语
S
facebook
1,245
7
Synthpose Vitpose Base Hf
Apache-2.0
SynthPose是基于VitPose Base的2D人体姿态估计模型,通过合成数据微调,可预测52个解剖学关键点
姿态估计
Transformers

S
stanfordmimi
931
3
Reloc3r 512
Reloc3r是一个简洁高效的相机姿态估计框架,结合了预训练的双视角相对相机姿态回归网络与多视角运动平均模块。
姿态估计
R
siyan824
840
4
Vitpose Base
Apache-2.0
基于视觉Transformer的人体姿态估计模型,在MS COCO关键点测试集上达到81.1 AP的优异表现
姿态估计
Transformers 英语

V
usyd-community
761
9
Lightglue Superpoint
其他
LightGlue是一个高效的关键点检测和匹配模型,用于计算机视觉中的特征匹配和姿态估计问题。
姿态估计
Transformers

L
ETH-CVG
316
20
Reloc3r 224
Reloc3r 是一个用于视觉定位的大规模相对相机姿态回归模型,具有可泛化、快速且精准的特点。
姿态估计
R
siyan824
172
2
Vitpose Base Simple
这是一个基于transformers的关键点检测模型,用于识别图像中的关键点位置
姿态估计
Transformers

V
nielsr
109
1
Sapiens Pose Bbox Detector
Apache-2.0
RTMDet检测器是专为配合Sapiens姿态估计模型设计的高效检测器,用于人体关键点检测任务。
姿态估计
S
facebook
107
3
Sapiens Pose 1b
Pose-Sapiens-1B 是一个基于视觉 Transformer 架构的高分辨率人体姿态估计模型,在 3 亿张 1024x1024 分辨率的人类图像上预训练,支持 308 个关键点检测(身体、面部、手部和足部)。
姿态估计 英语
S
facebook
82
4
Poseless 3B
Apache-2.0
Poseless-3B 是一种基于视觉语言模型(VLM)的机器人手部控制框架,能够直接将2D图像映射到关节角度,无需显式姿态估计。
姿态估计
Transformers

P
Menlo
65
10
Sapiens Pose 0.3b Torchscript
Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型,专为姿态估计任务设计,支持308个关键点检测。
姿态估计 英语
S
facebook
55
1
Vitpose Base Coco Aic Mpii
Apache-2.0
ViTPose是一个基于视觉Transformer的人体姿态估计模型,通过简单的架构设计在MS COCO等基准上取得了优异表现。
姿态估计
Transformers 英语

V
usyd-community
38
1
Vitpose Base Simple
基于ViT架构的轻量级姿态估计模型,用于人体关键点检测
姿态估计
Transformers

V
onnx-community
31
3
Sapiens Pose 1b Bfloat16
Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉变换器系列模型,专注于以人为中心的视觉任务。
姿态估计 英语
S
facebook
31
0
Sapiens Pose 0.6b Torchscript
Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型,专为姿态估计任务设计,支持308个关键点检测。
姿态估计 英语
S
facebook
29
0
Diffusion Pusht Keypoints
Apache-2.0
基于Diffusion Policy训练的机器人控制模型,专为PushT任务设计,使用关键点观测数据进行训练
姿态估计
Transformers

D
lerobot
21
0
Vitpose Base Simple
Apache-2.0
ViTPose是基于普通视觉Transformer的人体姿态估计基线模型,通过简洁架构实现高性能关键点检测
姿态估计
Transformers 英语

V
danelcsb
20
1
Sapiens Pose 0.6b
Sapiens 是一个基于 3 亿张高分辨率人类图像预训练的视觉 Transformer 模型家族,专注于以人为中心的视觉任务。
姿态估计 英语
S
facebook
19
2
Vitpose
该模型用于检测图像或视频中的关键点,适用于人体姿态估计、面部特征点检测等任务。
姿态估计
Transformers

V
shauray
19
0