Sapiens-pose-1bオープンソース人体姿勢推定モデル - 308個のキーポイント検出をサポートする実用ツール

Sapiens Pose 1b

Developed by facebook

Pose-Sapiens-1Bは、ビジョントランスフォーマーアーキテクチャに基づく高解像度人体姿勢推定モデルで、3億枚の1024x1024解像度の人間画像で事前学習されており、308のキーポイント検出（身体、顔、手、足）をサポートします。

Downloads 82

Release Time : 9/10/2024

Model Overview

このモデルは高精度な人体姿勢推定のために設計されており、実世界のシナリオで優れた汎化性能を発揮し、特に注釈データが不足しているか完全に合成されたシナリオに適しています。

高解像度サポート

1K高解像度推論（1024x768）をネイティブでサポートし、高精度画像処理に適しています。

多部位キーポイント検出

身体、顔、手、足の308のキーポイントを同時に検出できます。

強力な汎化能力

注釈データが不足しているか完全に合成されたシナリオでも、実データで優れた性能を発揮します。

大規模事前学習

3億枚の人間画像に基づく事前学習により、豊富な姿勢特徴表現を学習しています。

人体姿勢推定

顔キーポイント検出

手キーポイント検出

足キーポイント検出

高解像度画像処理

動作分析とスポーツ科学

アスリート姿勢分析

アスリートの動作姿勢を分析し、トレーニング効果を最適化します。

308のキーポイントの正確な位置データを提供可能

仮想現実と拡張現実

バーチャルアバター制御

バーチャルアバターの精密なモーションキャプチャに使用されます。

高精細な人体動作再現を実現

医療リハビリテーション

リハビリ訓練モニタリング

患者のリハビリ訓練動作が正しいかどうかを監視します。

正確な姿勢評価データを提供

Pose-Sapiens-1Bは、人間の画像に対するキーポイント検出を行うモデルです。高解像度の画像に対応し、野生環境のデータに対しても良好な汎化性能を示します。

このモデルは、単一の画像上で308個のキーポイント（体 + 顔 + 手 + 足）を推定するために使用できます。

Sapiensは、1024 x 1024の解像度で3億枚の人間画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、野生環境の条件に汎化します。
Sapiens-1Bは、ネイティブで1Kの高解像度推論をサポートします。得られたモデルは、ラベル付きデータが不足している場合や完全に合成されたデータであっても、野生環境のデータに対して顕著な汎化性能を示します。