Sapiens - depth - 0.3b - torchscriptオープンソースビジョンモデル

Home

Sapiens Depth 0.3b Torchscript

Developed by facebook

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習された視覚変換器ファミリーで、深度推定タスクに使用されます。

3Dビジョン English#高解像度深度推定 #人間画像専用 #3億データ事前学習

Downloads 69

Release Time : 9/9/2024

Model Overview

Sapiens-0.3Bは人間画像の相対深度を推定するために特別に設計された視覚変換器モデルです。1K高解像度で優れた性能を発揮し、実世界のシーンにも汎化できます。

Model Features

高解像度サポート

1K高解像度推論をネイティブサポートし、高精度深度推定タスクに適しています。

強力な汎化能力

アノテーションデータが不足している場合や完全に合成されたデータであっても、実データに対して優れた汎化能力を示します。

大規模事前学習

3億枚の1024x1024解像度人間画像で事前学習されており、強力な特徴抽出能力を備えています。

Model Capabilities

人間画像深度推定

高解像度画像処理

実シーン汎化

Use Cases

コンピュータビジョン

仮想現実

仮想現実アプリケーションにおける人間深度推定に使用され、シーンのリアリズムを向上させます。

拡張現実

拡張現実アプリケーションで、より自然なインタラクションを実現するために人間深度を正確に推定します。

🚀 Depth-Sapiens-0.3B-Torchscript

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に対して汎化性能を発揮します。

🚀 クイックスタート

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルを人間中心のビジョンタスクに微調整すると、実環境の条件に対して汎化性能を発揮します。 Sapiens-0.3Bは、ネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成されたデータであっても、実環境のデータに対して卓越した汎化性能を示します。

✨ 主な機能

開発元: Meta
モデルタイプ: ビジョントランスフォーマー
ライセンス: Creative Commons Attribution-NonCommercial 4.0
タスク: 深度推定
フォーマット: torchscript
ファイル: sapiens_0.3b_render_people_epoch_100_torchscript.pt2

📚 ドキュメント

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.336 B
FLOPs	1.242 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1024
レイヤー数	24
ヘッド数	16
フィードフォワードチャネル数	4096