Sapiens-pose-0.6bオープンソースビジュアルモデル - 人を中心としたビジュアルタスクを高精度に処理

ホーム

Sapiens Pose 0.6b

facebookによって開発

Sapiensは3億枚の高解像度人間画像で事前学習されたビジョントランスフォーマーモデルファミリーで、人間中心の視覚タスクに特化しています。

姿勢推定英語#高解像度姿勢推定 #全身キーポイント検出 #合成データ汎化

ダウンロード数 19

リリース時間 : 9/18/2024

モデル概要

Pose-Sapiens-0.6Bは姿勢推定用のビジョントランスフォーマーモデルで、単一画像上で308個のキーポイント（身体+顔+手+足）の推定をサポートします。

モデル特徴

高解像度サポート

1K高解像度推論をネイティブサポートし、画像サイズは1024 x 768まで対応可能です。

優れた汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

多キーポイント検出

身体、顔、手、足の合計308個のキーポイント推定をサポートします。

モデル能力

人体姿勢推定

顔キーポイント検出

手キーポイント検出

足キーポイント検出

使用事例

コンピュータビジョン

人体姿勢分析

運動分析、フィットネス指導などのシーンでの人体姿勢推定に使用されます。

仮想現実

仮想現実アプリケーションに正確な人体姿勢データを提供します。

🚀 Pose-Sapiens-0.6B

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整されると、実環境の条件にも汎化できます。

🚀 クイックスタート

Pose 0.6Bモデルは、単一の画像上の308個のキーポイント（体 + 顔 + 手 + 足）を推定するために使用できます。

✨ 主な機能

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整されると、実環境の条件にも汎化できます。Sapiens-0.6Bは、ネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成されたデータの場合でも、実環境のデータに対して卓越した汎化能力を示します。

📚 ドキュメント

モデルの詳細

開発者: Meta
モデルの種類: Vision Transformer
ライセンス: Creative Commons Attribution-NonCommercial 4.0
タスク: ポーズ推定
フォーマット: オリジナル
ファイル: sapiens_0.6b_goliath_best_goliath_AP_609.pth

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.664 B
FLOPs	2.583 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1280
レイヤー数	32
ヘッド数	16
フィードフォワードチャネル数	5120