V

Vitpose Base Coco Aic Mpii

由 usyd-community 开发
ViTPose是一个基于视觉Transformer的人体姿态估计模型,通过简单的架构设计在MS COCO等基准上取得了优异表现。
下载量 38
发布时间 : 1/8/2025

模型简介

ViTPose使用普通视觉Transformer作为骨干网络,配合轻量级解码器进行人体姿态估计,支持从1亿到10亿参数规模的扩展。

模型特点

简单架构
仅使用标准视觉Transformer结构,无需复杂领域知识设计
卓越扩展性
参数规模可从1亿扩展到10亿,建立性能-吞吐量新前沿
灵活训练
支持多种注意力类型、输入分辨率、预训练和微调策略
知识迁移
支持通过知识令牌将大模型知识迁移到小模型

模型能力

人体姿态估计
多人关键点检测
遮挡场景分析

使用案例

健康与健身
运动姿态分析
实时监测健身动作的标准性
可提供17个关键点的精确位置反馈
智能监控
行为分析
公共场所异常行为检测
在遮挡场景下仍保持80.9 AP的准确率
数字娱乐
动作捕捉
游戏角色动作驱动
支持多人实时姿态估计
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase