Sapiens-depth-1b-bfloat16オープンソースビジョンモデル - 人を中心としたビジュアルタスクに無料で使用可能

Sapiens Depth 1b Bfloat16

facebookによって開発

Sapiensは3億枚の1024x1024解像度のポートレート画像で事前学習されたビジョントランスフォーマーモデルで、人間中心の視覚タスクに特化しています。

ダウンロード数 37

リリース時間 : 9/10/2024

モデル概要

このモデルはポートレート画像の相対深度推定に使用され、1K高解像度推論をサポートし、アノテーションデータが不足している場合や完全に合成された場合でも実データに対する優れた汎化能力を発揮します。

高解像度サポート

ネイティブで1K高解像度推論をサポートし、画像サイズは1024x768まで可能です。

大規模事前学習

3億枚の1024x1024解像度のポートレート画像で事前学習を行いました。

優れた汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

ポートレート画像深度推定

高解像度画像処理

コンピュータビジョン

ポートレート深度推定

ポートレート画像の相対深度情報を推定するために使用されます。

実データで優れた汎化能力を示します。

このモデルは、人間画像に対する相対深度推定に特化したビジョントランスフォーマーです。3億枚の1024x1024解像度の人間画像で事前学習され、人間中心のビジョンタスクにおいて優れた汎化性能を発揮します。

Sapiensは、1024x1024解像度の3億枚の人間画像で事前学習されたビジョントランスフォーマーのファミリーです。人間中心のビジョンタスクにファインチューニングすると、実環境でも汎化性能を発揮します。
Sapiens-1Bは、ネイティブで1Kの高解像度推論をサポートしています。結果として得られるモデルは、ラベル付きデータが不足している場合や完全に合成データの場合でも、実環境のデータに対して顕著な汎化性能を示します。

READMEに具体的なインストール手順が記載されていないため、このセクションは省略されます。

属性	详情
開発者	Meta
モデルタイプ	Vision Transformer
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	深度推定
フォーマット	bfloat16
ファイル	sapiens_1b_render_people_epoch_88_bfloat16.pt2