Sapiens-depth-0.3b-bfloat16オープンソースモデル - 人間を中心としたビジョンタスクに特化した実用的な選択肢

ホーム

Sapiens Depth 0.3b Bfloat16

facebookによって開発

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習されたビジョントランスフォーマーシリーズモデルで、人間中心の視覚タスクに特化しています。

3Dビジョン英語#高解像度深度推定 #人間画像専用 #1K解像度対応

ダウンロード数 22

リリース時間 : 9/10/2024

モデル概要

このモデルは人間画像の相対的な深度情報を推定するために使用され、1K高解像度推論をサポートし、実世界データに対して優れた汎化能力を持っています。

モデル特徴

高解像度対応

ネイティブで1K高解像度推論をサポートし、画像サイズは1024x768まで可能です。

強力な汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実世界データに対して優れた汎化能力を示します。

効率的な計算

計算量は1.242 TFLOPs、パラメータ数は3.36億で、性能と効率のバランスが取れています。

モデル能力

深度推定

高解像度画像処理

人間画像分析

使用事例

コンピュータビジョン

人間画像深度推定

人間画像の相対的な深度情報を推定するために使用され、仮想現実、拡張現実などのシナリオに適しています。

複雑なシーンでも優れた汎化能力を示します。

🚀 Depth-Sapiens-0.3B-Bfloat16

このモデルは、人間画像の深度推定に特化したVision Transformerモデルです。3億枚の人間画像で事前学習され、人間中心のビジョンタスクに対して高い汎化性能を持ちます。

🚀 クイックスタート

Depth-Sapiens-0.3B-Bfloat16モデルは、人間画像の相対深度を推定するために使用できます。

✨ 主な機能

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を使用して事前学習されたVision Transformerのファミリーです。
Sapiens-0.3Bは、ネイティブで1Kの高解像度推論をサポートしています。
学習済みモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に対しても汎化できます。

📦 インストール

原READMEにインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

原READMEにコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデル詳細

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を使用して事前学習されたVision Transformerのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に対しても汎化できます。 Sapiens-0.3Bは、ネイティブで1Kの高解像度推論をサポートしています。結果として得られるモデルは、ラベル付きデータが不足している場合や完全に合成されたデータであっても、実環境のデータに対して顕著な汎化性能を示します。

属性	详情
開発元	Meta
モデルタイプ	Vision Transformer
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	深度推定
フォーマット	bfloat16
ファイル	sapiens_0.3b_render_people_epoch_100_bfloat16.pt2

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.336 B
FLOPs	1.242 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1024
レイヤー数	24
ヘッド数	16
フィードフォワードチャネル数	4096