オープンソースのSapiens - pose - 1b - torchscriptモデル - 高精度人体姿勢推定の良き補助ツール

ホーム

Sapiens Pose 1b Torchscript

facebookによって開発

Sapiensは3億枚の1024x1024解像度人体画像で事前学習された視覚Transformerモデルで、高精度な姿勢推定タスクのために設計されています。

姿勢推定英語#高解像度姿勢推定 #全身多部位キーポイント #10億パラメータ大規模モデル

ダウンロード数 1,245

リリース時間 : 9/9/2024

モデル概要

このモデルは単一画像上の308個のキーポイント推定に使用され、身体、顔、手、足をカバーし、1K高解像度推論をサポートし、優れた汎化能力を持っています。

モデル特徴

高解像度サポート

ネイティブで1K高解像度推論をサポートし、画像入力サイズは1024x768です。

多部位キーポイント検出

身体、顔、手、足の合計308個のキーポイントを同時に検出できます。

強力な汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

効率的な計算

計算量は4.647兆回の浮動小数点演算で、精度と効率のバランスが取れています。

モデル能力

人体姿勢推定

顔キーポイント検出

手キーポイント検出

足キーポイント検出

高解像度画像処理

使用事例

スポーツ分析

アスリート動作分析

アスリートの動作姿勢を分析し、技術動作の改善を支援します。

全身308個のキーポイントを正確に捕捉可能

ヒューマンコンピュータインタラクション

ジェスチャー認識

複雑なジェスチャー動作を認識し、自然なヒューマンコンピュータインタラクションを実現します。

高精度な手キーポイント検出

バーチャルリアリティ

バーチャルアバター駆動

バーチャルアバターをリアルタイムで駆動し、リアルなモーションキャプチャを実現します。

全身姿勢のリアルタイム推定

🚀 Pose-Sapiens-1B-Torchscript

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に汎化します。Sapiens-1Bはネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化能力を示します。

🚀 クイックスタート

このモデルは、単一の画像上で308個のキーポイント（体 + 顔 + 手 + 足）を推定するために使用できます。

✨ 主な機能

Sapiensは、3億枚の人間の画像で事前学習されたビジョントランスフォーマーです。
事前学習モデルを人間中心のビジョンタスクに微調整すると、実環境の条件に汎化します。
Sapiens-1Bはネイティブで1Kの高解像度推論をサポートしています。
ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化能力を示します。

📚 ドキュメント

モデルの詳細

開発元: Meta
モデルの種類: Vision Transformer
ライセンス: Creative Commons Attribution-NonCommercial 4.0
タスク: pose
フォーマット: torchscript
ファイル: sapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2

モデルカード

属性	詳情
画像サイズ	1024 x 768 (H x W)
パラメータ数	1.169 B
FLOPs	4.647 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1536
レイヤー数	40
ヘッド数	24
フィードフォワードチャネル数	6144