オープンソースのSapiens - depth - 0.6b - torchscriptモデル - 人を中心とした視覚タスクを効率的に処理

ホーム

Sapiens Depth 0.6b Torchscript

facebookによって開発

Sapiensは、3億枚の1024 x 1024解像度の人間画像で事前学習されたビジョントランスフォーマーシリーズモデルで、人間中心の視覚タスクに焦点を当てています。

3Dビジョン英語#高解像度深度推定 #人間中心の視覚 #3億枚の画像事前学習

ダウンロード数 34

リリース時間 : 9/9/2024

モデル概要

このモデルは人間画像の相対的な深度を推定するために使用され、高解像度推論をサポートし、実データで優れた汎化能力を示します。

モデル特徴

高解像度対応

1K高解像度推論をネイティブサポートし、高品質な画像処理に適しています。

優れた汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対して優れた汎化能力を示します。

大規模事前学習

3億枚の1024 x 1024解像度の人間画像で事前学習されており、強力な特徴抽出能力を備えています。

モデル能力

人間画像の深度推定

高解像度画像処理

使用事例

コンピュータビジョン

人体深度推定

人間画像の相対的な深度を推定するために使用され、仮想現実、拡張現実などのシナリオに適しています。

実データで優れた汎化能力を示します。

🚀 Depth-Sapiens-0.6B-Torchscript

このモデルは、人間画像の相対深度を推定するためのモデルです。Sapiensというビジョントランスフォーマーファミリーの一つで、1024 x 1024の画像解像度で3億枚の人間画像で事前学習されています。

📚 詳細ドキュメント

モデルの詳細

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整されると、実環境の条件に対して汎化性能を発揮します。 Sapiens-0.6Bは、ネイティブで1Kの高解像度推論をサポートしています。結果として得られるモデルは、ラベル付きデータが不足している場合や完全に合成データの場合でも、実環境のデータに対して顕著な汎化性能を示します。

開発者: Meta
モデルタイプ: ビジョントランスフォーマー
ライセンス: Creative Commons Attribution-NonCommercial 4.0
タスク: 深度推定
フォーマット: torchscript
ファイル: sapiens_0.6b_render_people_epoch_70_torchscript.pt2

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.664 B
FLOPs	2.583 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1280
レイヤー数	32
ヘッド数	16
フィードフォワードチャネル数	5120