Sapiens-pose-1b-bfloat16オープンソースビジュアルモデル - 無料デプロイで人中心のビジュアルタスクをサポート

ホーム

Sapiens Pose 1b Bfloat16

facebookによって開発

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習されたビジョントランスフォーマーシリーズモデルで、人間中心の視覚タスクに特化しています。

姿勢推定英語#高解像度姿勢推定 #全身キーポイント検出 #ViT大規模モデル

ダウンロード数 31

リリース時間 : 9/10/2024

モデル概要

このモデルは単一画像上の308キーポイント（身体+顔+手+足）の推定に使用され、1K高解像度推論をサポートし、優れた汎化能力を持ちます。

モデル特徴

高解像度サポート

1K高解像度推論をネイティブサポートし、1024x768の画像サイズに適しています。

大規模事前学習

3億枚の人間画像で事前学習されており、強力な特徴抽出能力を持ちます。

複数キーポイント検出

身体、顔、手、足の308キーポイントを同時に検出できます。

優れた汎化能力

注釈データが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

モデル能力

人体姿勢推定

顔キーポイント検出

手キーポイント検出

足キーポイント検出

使用事例

コンピュータビジョン

人体姿勢分析

運動分析、フィットネス指導などのシーンでの人体姿勢推定に使用されます。

308キーポイントを検出し、詳細な人体姿勢情報を提供します。

仮想現実

VR/ARアプリケーションで精密な人体動作キャプチャを実現します。

高精度キーポイント検出により、仮想現実体験を向上させます。

医療健康

リハビリ訓練モニタリング

患者のリハビリ訓練動作が規範に沿っているかを監視します。

🚀 Pose-Sapiens-1B-Bfloat16

Pose-Sapiens-1B-Bfloat16は、高精度なヒトの姿勢推定を行うためのビジョントランスフォーマーモデルです。3億枚のヒト画像で事前学習され、様々な環境での汎化性能に優れています。

✨ 主な機能

300 million枚の1024 x 1024解像度のヒト画像で事前学習されたビジョントランスフォーマーモデル。
ヒト中心のビジョンタスクにファインチューニングすると、実環境でも良好な汎化性能を発揮。
1Kの高解像度推論をサポート。
ラベル付きデータが少ない場合や合成データのみでも、実環境のデータに対して高い汎化性能を示す。

📚 ドキュメント

モデルの詳細

Sapiensは、1024 x 1024の画像解像度で3億枚のヒト画像を使って事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、ヒト中心のビジョンタスクにファインチューニングすると、実環境でも良好な汎化性能を発揮します。 Sapiens-1Bは、ネイティブで1Kの高解像度推論をサポートしています。その結果、得られたモデルは、ラベル付きデータが少ない場合や合成データのみでも、実環境のデータに対して顕著な汎化性能を示します。

属性	详情
開発元	Meta
モデルタイプ	ビジョントランスフォーマー
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	姿勢推定
フォーマット	bfloat16
ファイル	sapiens_1b_goliath_best_goliath_AP_639_bfloat16.pt2

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	1.169 B
FLOPs	4.647 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1536
レイヤー数	40
ヘッド数	24
フィードフォワードチャネル数	6144