オープンソースのSapiens - pose - 0.3b - torchscriptモデル - 高精度な姿勢推定、308個のキーポイント検出に対応

ホーム

Sapiens Pose 0.3b Torchscript

facebookによって開発

Sapiensは3億枚の高解像度人間画像で事前学習された視覚Transformerモデルで、姿勢推定タスク向けに設計されており、308のキーポイント検出をサポートします。

姿勢推定英語#高解像度姿勢推定 #全身キーポイント検出 #3億枚の画像事前学習

ダウンロード数 55

リリース時間 : 9/13/2024

モデル概要

このモデルは単一画像の全身キーポイント（身体+顔+手+足）推定に使用され、1024x768解像度で優れた性能を発揮します。

モデル特徴

高解像度サポート

1024x768の高解像度入力をネイティブサポートし、精密な姿勢分析に適しています

多部位キーポイント検出

身体、顔、手、足の合計308のキーポイントを同時検出

強力な汎化能力

3億枚の画像で事前学習されており、実世界のシーンで優れた性能を発揮

効率的な推論

1.242兆回の浮動小数点演算で、精度と効率のバランスを実現

モデル能力

全身姿勢推定

多部位キーポイント検出

高解像度画像処理

使用事例

動作分析

スポーツ姿勢分析

アスリートのモーションキャプチャや姿勢矯正に使用

308のキーポイントを正確に識別可能

人間とコンピュータの相互作用

ジェスチャー認識

複雑な手の動きを認識

手のキーポイント検出を含む

🚀 Pose-Sapiens-0.3B-Torchscript

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。この事前学習モデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に汎化します。

🚀 クイックスタート

このモデルは、人間の姿勢推定に使用できます。以下に詳細を説明します。

✨ 主な機能

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。
Sapiens-0.3Bは、ネイティブで1Kの高解像度推論をサポートしています。
このモデルは、実環境のデータに対して優れた汎化性能を示し、ラベル付きデータが不足している場合や完全に合成されたデータでも有効です。

📚 ドキュメント

モデルの詳細

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に汎化します。 Sapiens-0.3Bは、ネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、実環境のデータに対して顕著な汎化性能を示し、ラベル付きデータが不足している場合や完全に合成されたデータでも有効です。

属性	详情
開発元	Meta
モデルタイプ	Vision Transformer
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	姿勢推定
形式	torchscript
ファイル	sapiens_0.3b_goliath_best_goliath_AP_573_torchscript.pt2

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.336 B
FLOPs	1.242 TFLOPs
パッチサイズ	16 x 16
埋め込み次元	1024
レイヤー数	24
ヘッド数	16
フィードフォワードチャネル	4096