サピエンス - 深度 - 2bオープンソースビジョンモデル - 人間中心のビジョンタスクアプリケーションを無料で支援

ホーム

Sapiens Depth 2b

facebookによって開発

Sapiensは3億枚の1024×1024解像度人間画像で事前学習された視覚Transformerモデルファミリーで、人間中心の視覚タスクに特化しています。

3Dビジョン英語#高解像度深度推定 #人間中心視覚 #21億パラメータ大規模モデル

ダウンロード数 40

リリース時間 : 9/10/2024

モデル概要

Depth-Sapiens-2Bは人間画像の相対深度を推定する視覚Transformerモデルで、ネイティブで1K高解像度推論をサポートし、注釈データが不足しているか完全に合成された場合でも実データに対する優れた汎化能力を示します。

モデル特徴

高解像度サポート

ネイティブで1K高解像度推論をサポートし、画像サイズは1024×768まで可能です。

大規模事前学習

3億枚の1024×1024解像度人間画像で事前学習されています。

優れた汎化能力

注釈データが不足しているか完全に合成された場合でも、実データに対する優れた汎化能力を示します。

効率的なアーキテクチャ

視覚Transformerアーキテクチャを採用し、21.63億パラメータと8.709兆回の浮動小数点演算を有します。

モデル能力

人間画像深度推定

高解像度画像処理

合成データ汎化

使用事例

コンピュータビジョン

人体深度推定

人間画像の相対深度を推定するために使用され、仮想現実、拡張現実などのシナリオに適しています。

注釈データが不足しているか完全に合成された場合でも実データに対する優れた汎化能力を示します。

🚀 Depth-Sapiens-2B

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整されると、実環境の条件に対して汎化性能を発揮します。

✨ 主な機能

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルを人間中心のビジョンタスクに微調整すると、実環境の条件に対して汎化します。 Sapiens-2Bはネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して驚くほどの汎化性能を示します。

属性	详情
開発者	Meta
モデルタイプ	Vision Transformer
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	深度推定
フォーマット	オリジナル
ファイル	sapiens_2b_render_people_epoch_25.pth

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	2.163 B
FLOPs	8.709 TFLOPs
パッチサイズ	16 x 16
埋め込み次元	1920
レイヤー数	48
ヘッド数	32
フィードフォワードチャネル	7680