V

Vitpose Plus Base

usyd-communityによって開発
ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、シンプルな設計によりMS COCOキーポイント検出ベンチマークで81.1 APの優れた性能を達成しました。
ダウンロード数 22.26k
リリース時間 : 1/8/2025

モデル概要

このモデルはシンプルな視覚Transformerアーキテクチャで効率的な人体姿勢推定を実現し、100Mから1Bパラメータ規模までの柔軟な拡張をサポート、高い並列性と知識転移能力を備えています。

モデル特徴

シンプルなアーキテクチャ設計
非階層型視覚Transformerバックボーンを採用し、複雑なドメイン知識設計なしで高性能を実現
柔軟な拡張性
パラメータ規模を100Mから1Bまで拡張可能で、スループットと性能の間でパレートフロンティアを確立
マルチタスク適応性
注意タイプ、入力解像度、事前学習戦略の柔軟な調整をサポートし、複数の姿勢タスクを処理可能
知識転移可能性
大規模モデルの知識を知識トークンで簡単に小規模モデルに転移可能

モデル能力

人体姿勢推定
複数人キーポイント検出
オクルージョンシーン分析

使用事例

健康・フィットネス
運動姿勢分析
フィットネス動作のキーポイントをリアルタイム追跡
動作の規範性フィードバックを提供
セキュリティ監視
行動監視
公共空間での異常行動識別
デジタルエンターテインメント
モーションキャプチャ
ゲームキャラクター動作生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase