开源Sapiens-pose-0.3b-torchscript模型 - 精准姿态估计，支持308个关键点检测

Home

Sapiens Pose 0.3b Torchscript

Developed by facebook

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专为姿态估计任务设计，支持308个关键点检测。

姿态估计 English#高分辨率姿态估计 #全身关键点检测 #3亿图像预训练

Downloads 55

Release Time : 9/13/2024

Model Overview

该模型用于单张图像的全身关键点（身体+面部+手部+足部）估计，在1024x768分辨率下表现出色。

Model Features

高分辨率支持

原生支持1024x768高分辨率输入，适合精细姿态分析

多部位关键点检测

同时检测身体、面部、手部和足部共308个关键点

强泛化能力

通过3亿张图像预训练，在真实场景中表现优异

高效推理

1.242万亿次浮点运算的计算量，平衡精度与效率

Model Capabilities

全身姿态估计

多部位关键点检测

高分辨率图像处理

Use Cases

动作分析

运动姿态分析

用于运动员动作捕捉和姿势纠正

可精确识别308个关键点

人机交互

手势识别

识别复杂手部动作

包含手部关键点检测

属性	详情
图像尺寸	1024 x 768（高 x 宽）
参数数量	3.36 亿
浮点运算次数	1.242 万亿次浮点运算
补丁尺寸	16 x 16
嵌入维度	1024
层数	24
头数	16
前馈通道数	4096

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Sapiens Pose 0.3b Torchscript

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Pose-Sapiens-0.3B-Torchscript

📚 详细文档

模型详情

模型卡片

更多资源

💻 使用示例

📄 许可证