V

Vitpose Plus Base

Developed by usyd-community
ViTPose是一个基于视觉Transformer的人体姿态估计模型,采用简洁设计在MS COCO关键点检测基准上取得81.1 AP的优异表现。
Downloads 22.26k
Release Time : 1/8/2025

Model Overview

该模型通过朴素视觉Transformer架构实现高效人体姿态估计,支持从100M到1B参数规模的灵活扩展,具有高度并行性和知识迁移能力。

Model Features

简洁架构设计
采用非层级化视觉Transformer骨干网络,无需复杂领域知识设计即实现高性能
灵活可扩展
参数规模可从100M扩展至1B,在吞吐量与性能间建立帕累托前沿
多任务适应性
支持注意力类型、输入分辨率、预训练策略的灵活调整,可处理多姿态任务
知识可迁移性
大型模型知识可通过知识令牌轻松迁移至小型模型

Model Capabilities

人体姿态估计
多人关键点检测
遮挡场景分析

Use Cases

健康健身
运动姿势分析
实时追踪健身动作关键点
提供动作规范性反馈
安防监控
行为监测
公共场所异常行为识别
数字娱乐
动作捕捉
游戏角色动作生成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase