姿态估计

2025年最佳的 28 个姿态估计工具

SuperPoint是一种自监督训练的全卷积网络，用于兴趣点检测和描述。

magic-leap-community

Vitpose Base Simple

ViTPose是基于视觉Transformer的人体姿态估计模型，在MS COCO关键点测试集上达到81.1 AP的精度，具有模型简洁、规模可扩展、训练灵活等优势

Transformers 英语

Vitpose Plus Small

ViTPose++是基于视觉Transformer的人体姿态估计模型，在MS COCO关键点检测基准上达到81.1 AP的优异表现。

Vitpose Plus Base

ViTPose是一个基于视觉Transformer的人体姿态估计模型，采用简洁设计在MS COCO关键点检测基准上取得81.1 AP的优异表现。

Transformers 英语

Superglue Outdoor

SuperGlue是一种基于图神经网络的特征匹配模型，用于匹配图像中的兴趣点，适用于图像匹配和姿态估计任务。

magic-leap-community

Vitpose Plus Huge

ViTPose++是基于视觉Transformer的人体姿态估计基础模型，在MS COCO关键点测试集上达到81.1 AP的优异表现。

img2pose是一个基于Faster R-CNN的模型，用于预测照片中所有人脸的六自由度姿态（6DoF），并能将3D人脸投影到2D平面。

Vitpose Plus Large

ViTPose++是基于视觉Transformer的人体姿态估计基础模型，在MS COCO关键点测试集上达到81.1 AP的优异表现。

Synthpose Vitpose Huge Hf

SynthPose是基于VitPose巨型主干网络的关键点检测模型，通过合成数据微调预测52个人体关键点，适用于运动学分析。

Sapiens Pose 1b Torchscript

Sapiens是基于3亿张1024x1024分辨率人体图像预训练的视觉Transformer模型，专为高精度姿态估计任务设计。

姿态估计英语

Synthpose Vitpose Base Hf

SynthPose是基于VitPose Base的2D人体姿态估计模型，通过合成数据微调，可预测52个解剖学关键点

Reloc3r是一个简洁高效的相机姿态估计框架，结合了预训练的双视角相对相机姿态回归网络与多视角运动平均模块。

基于视觉Transformer的人体姿态估计模型，在MS COCO关键点测试集上达到81.1 AP的优异表现

Transformers 英语

Lightglue Superpoint

LightGlue是一个高效的关键点检测和匹配模型，用于计算机视觉中的特征匹配和姿态估计问题。

Reloc3r 是一个用于视觉定位的大规模相对相机姿态回归模型，具有可泛化、快速且精准的特点。

Vitpose Base Simple

这是一个基于transformers的关键点检测模型，用于识别图像中的关键点位置

Sapiens Pose Bbox Detector

RTMDet检测器是专为配合Sapiens姿态估计模型设计的高效检测器，用于人体关键点检测任务。

Sapiens Pose 1b

Pose-Sapiens-1B 是一个基于视觉 Transformer 架构的高分辨率人体姿态估计模型，在 3 亿张 1024x1024 分辨率的人类图像上预训练，支持 308 个关键点检测（身体、面部、手部和足部）。

姿态估计英语

Poseless-3B 是一种基于视觉语言模型（VLM）的机器人手部控制框架，能够直接将2D图像映射到关节角度，无需显式姿态估计。

Sapiens Pose 0.3b Torchscript

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专为姿态估计任务设计，支持308个关键点检测。

姿态估计英语

Vitpose Base Coco Aic Mpii

ViTPose是一个基于视觉Transformer的人体姿态估计模型，通过简单的架构设计在MS COCO等基准上取得了优异表现。

Transformers 英语

Vitpose Base Simple

基于ViT架构的轻量级姿态估计模型，用于人体关键点检测

Sapiens Pose 1b Bfloat16

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉变换器系列模型，专注于以人为中心的视觉任务。

姿态估计英语

Sapiens Pose 0.6b Torchscript

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专为姿态估计任务设计，支持308个关键点检测。

姿态估计英语

Diffusion Pusht Keypoints

基于Diffusion Policy训练的机器人控制模型，专为PushT任务设计，使用关键点观测数据进行训练

Vitpose Base Simple

ViTPose是基于普通视觉Transformer的人体姿态估计基线模型，通过简洁架构实现高性能关键点检测

Transformers 英语

Sapiens Pose 0.6b

Sapiens 是一个基于 3 亿张高分辨率人类图像预训练的视觉 Transformer 模型家族，专注于以人为中心的视觉任务。

姿态估计英语

该模型用于检测图像或视频中的关键点，适用于人体姿态估计、面部特征点检测等任务。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase