V

Vitpose Plus Large

usyd-communityによって開発
ViTPose++はビジョントランスフォーマーに基づく人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成しました。
ダウンロード数 1,731
リリース時間 : 1/12/2025

モデル概要

ViTPose++は、人体姿勢推定タスクのためのシンプルで効果的なビジョントランスフォーマーのベースラインモデルです。非階層型のビジョントランスフォーマーをバックボーンとして使用し、軽量なデコーダーと組み合わせて姿勢推定を行います。モデルのシンプルさ、拡張性、柔軟性などの特徴があります。

モデル特徴

シンプルで効果的なアーキテクチャ
標準的なビジョントランスフォーマーをバックボーンとして使用し、複雑なドメイン固有設計なしで高性能を実現
高い拡張性
モデルパラメータを100Mから1Bまで拡張可能で、性能とスループットの間に新しいパレートフロンティアを確立
学習の柔軟性
複数のアテンションタイプ、入力解像度、事前学習と微調整戦略をサポートし、複数の姿勢タスクを処理可能
知識の転移性
大規模モデルの知識は、シンプルな知識トークンを通じて小規模モデルに容易に転移可能

モデル能力

人体姿勢推定
キーポイント検出
複数人姿勢認識
オクルージョン下の人体姿勢推定

使用事例

コンピュータビジョン
人体姿勢分析
画像や動画中の人体キーポイント位置を検出
MS COCOテストセットで80.9 APを達成
動作認識
連続フレーム中の姿勢変化を分析して人間の動作を認識
健康・フィットネス
スポーツ姿勢分析
フィットネス運動中の姿勢とテクニックを追跡・分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase