V

Vitpose Base Simple

usyd-communityによって開発
ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、MS COCOキーポイントテストセットで81.1 APの精度を達成し、モデルの簡潔さ、スケーラビリティ、トレーニングの柔軟性などの利点があります
ダウンロード数 51.40k
リリース時間 : 1/8/2025

モデル概要

画像/動画中の人体キーポイントを検出するための視覚Transformerベースラインモデル

モデル特徴

モデルの簡潔性
シンプルな視覚Transformer構造を採用し、複雑なドメイン知識設計が不要
スケーラビリティ
パラメータ数を1億から10億まで柔軟に拡張可能で、スループットと性能のパレートフロンティアを確立
トレーニングの柔軟性
複数のアテンションタイプ、入力解像度、事前学習/ファインチューニング戦略及びマルチタスク処理をサポート
知識転移性
大規模モデルの知識をシンプルな知識トークンで効果的に小規模モデルに転移可能

モデル能力

人体キーポイント検出
複数人体姿勢推定
オクルージョンシーン処理

使用事例

健康・フィットネス
フィットネス動作矯正
ユーザーのフィットネス姿勢の正確性をリアルタイムで監視
17のキーポイント座標と信頼度スコアを提供
セキュリティ監視
異常行動検知
公共スペースでの人体姿勢特徴を分析
転倒、登攀などの異常動作を識別可能
ゲーム・アニメーション
モーションキャプチャ
実人物の動作を仮想キャラクターにマッピング
滑らかで自然なキャラクターアニメーションを生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase