dpt - hybrid - midasオープンソース深度推定モデル、大量の画像に基づく訓練で物体の深度を正確に測定！

ホーム

Dpt Hybrid Midas

Intelによって開発

ビジョントランスフォーマー(ViT)に基づく単眼深度推定モデル、140万枚の画像でトレーニング

3Dビジョン

Transformers

オープンソースライセンス:Apache-2.0 #単眼深度推定 #ゼロショット転移 #ビジョントランスフォーマー

ダウンロード数 224.05k

リリース時間 : 12/6/2022

モデル概要

単眼深度推定タスクのための密な予測トランスフォーマー(DPT)モデル。このモデルはViT-hybridをバックボーンネットワークとして使用し、単一画像から深度情報を予測できます。

モデル特徴

ゼロショット転移能力

モデルは優れたゼロショット転移能力を持ち、未見のデータセットでも良好な性能を発揮します

ハイブリッドアーキテクチャ

ViT-hybridをバックボーンネットワークとして使用し、畳み込みとトランスフォーマーの利点を組み合わせています

大規模トレーニング

約140万枚の画像を含むMIX-6データセットでトレーニングされており、強力な汎化能力を持っています

モデル能力

単眼深度推定

ゼロショット転移

画像深度予測

使用事例

コンピュータビジョン

シーン深度分析

単一画像からシーン内の各オブジェクトの相対的な深度を推定

入力画像に対応する深度マップを生成可能

3Dシーン再構築

3D再構築に深度情報を提供

🚀 DPT - Hybrid (MiDaS 3.0)

このモデルは、140万枚の画像で訓練された単眼深度推定用のDense Prediction Transformer (DPT) モデルです。画像の単眼深度推定に利用できます。

🚀 クイックスタート

このモデルは、単眼深度推定に使用できます。以下に、画像のゼロショット深度推定にこのモデルを使用する方法を示します。

from PIL import Image
import numpy as np
import requests
import torch

from transformers import DPTImageProcessor, DPTForDepthEstimation

image_processor = DPTImageProcessor.from_pretrained("Intel/dpt-hybrid-midas")
model = DPTForDepthEstimation.from_pretrained("Intel/dpt-hybrid-midas", low_cpu_mem_usage=True)

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# prepare image for the model
inputs = image_processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    predicted_depth = outputs.predicted_depth

# interpolate to original size
prediction = torch.nn.functional.interpolate(
    predicted_depth.unsqueeze(1),
    size=image.size[::-1],
    mode="bicubic",
    align_corners=False,
)

# visualize the prediction
output = prediction.squeeze().cpu().numpy()
formatted = (output * 255 / np.max(output)).astype("uint8")
depth = Image.fromarray(formatted)
depth.show()

より多くのコード例については、ドキュメントを参照してください。

✨ 主な機能

Dense Prediction Transformer (DPT) モデルを使用して、140万枚の画像で訓練された単眼深度推定モデルです。
Vision Transformer (ViT) をバックボーンとして使用し、単眼深度推定用のネックとヘッドを追加しています。
このリポジトリには、論文で述べられている「ハイブリッド」バージョンのモデルが含まれています。DPT - Hybrid は、[ViT - hybrid](https://huggingface.co/google/vit - hybrid - base - bit - 384) をバックボーンとして使用し、バックボーンからいくつかの活性化を取得します。

📚 ドキュメント

モデルの詳細

モデル詳細	説明
モデルの作者 - 会社	Intel
日付	2022年12月22日
バージョン	1
タイプ	コンピュータビジョン - 単眼深度推定
論文またはその他のリソース	Vision Transformers for Dense Prediction および GitHub Repo
ライセンス	Apache 2.0
質問またはコメント	[コミュニティタブ](https://huggingface.co/Intel/dpt - hybrid - midas/discussions) および Intel Developers Discord

想定される使用方法

想定される使用方法	説明
主な想定使用目的	生モデルをゼロショット単眼深度推定に使用できます。[モデルハブ](https://huggingface.co/models?search = dpt) を参照して、あなたが興味のあるタスクで微調整されたバージョンを探してください。
主な想定ユーザー	単眼深度推定を行う人
想定外の使用方法	このモデルは、ほとんどの場合、あなたの特定のタスクに合わせて微調整する必要があります。このモデルは、意図的に人々に敵対的または疎外感を与える環境を作り出すために使用してはいけません。

要因

要因	説明
グループ	複数のデータセットをまとめたもの
計測機器	-
環境	Intel Xeon Platinum 8280 CPU @ 2.70GHz、物理コア8個、NVIDIA RTX 2080 GPU で推論が完了しました。
カードのプロンプト	代替ハードウェアとソフトウェアでのモデル展開は、モデルのパフォーマンスを変更します。

メトリクス

メトリクス	説明
モデルのパフォーマンス測定	ゼロショット転移
決定閾値	-
不確実性と変動性へのアプローチ	-

訓練と評価データ

訓練と評価データ	説明
データセット	データセットは MIX 6 と呼ばれ、約140万枚の画像が含まれています。モデルは ImageNet で事前学習された重みで初期化されました。
動機	堅牢な単眼深度予測ネットワークを構築するため
前処理	「画像をリサイズして、長い方の辺が384ピクセルになるようにし、サイズ384のランダムな正方形のクロップで訓練します。... データ拡張のためにランダムな水平反転を行います。」詳細は Ranftl et al. (2021) を参照してください。

🔧 技術詳細

定量的分析

モデル	訓練セット	DIW WHDR	ETH3D AbsRel	Sintel AbsRel	KITTI δ>1.25	NYU δ>1.25	TUM δ>1.25
DPT - Large	MIX 6	10.82 (-13.2%)	0.089 (-31.2%)	0.270 (-17.5%)	8.46 (-64.6%)	8.32 (-12.9%)	9.97 (-30.3%)
DPT - Hybrid	MIX 6	11.06 (-11.2%)	0.093 (-27.6%)	0.274 (-16.2%)	11.56 (-51.6%)	8.69 (-9.0%)	10.89 (-23.2%)
MiDaS	MIX 6	12.95 (+3.9%)	0.116 (-10.5%)	0.329 (+0.5%)	16.08 (-32.7%)	8.71 (-8.8%)	12.51 (-12.5%)
MiDaS [30]	MIX 5	12.46	0.129	0.327	23.90	9.55	14.29
Li [22]	MD [22]	23.15	0.181	0.385	36.29	27.52	29.54
Li [21]	MC [21]	26.52	0.183	0.405	47.94	18.57	17.71
Wang [40]	WS [40]	19.09	0.205	0.390	31.92	29.57	20.18
Xian [45]	RW [45]	14.59	0.186	0.422	34.08	27.00	25.02
Casser [5]	CS [8]	32.80	0.235	0.422	21.15	39.58	37.18

表1. 単眼深度推定における最先端技術との比較。我々は、[30] で定義されたプロトコルに従って、ゼロショットクロスデータセット転移を評価します。相対的なパフォーマンスは、元の MiDaS モデル [30] に対して計算されます。すべてのメトリクスについて、低い値が良いです。(Ranftl et al., 2021)

倫理的な考慮事項

倫理的な考慮事項	説明
データ	訓練データは、複数の画像データセットをまとめたものです。
人間の生活	このモデルは、人間の生活や繁栄にとって中心的な決定を下すための情報を提供することを目的としていません。これは、単眼深度画像データセットの集合です。
緩和策	モデル開発中に、追加のリスク緩和策は考慮されませんでした。
リスクと危害	このモデルを使用することに伴うリスクの程度は不明です。
使用例	-

注意事項と推奨事項

注意事項と推奨事項
ユーザー（直接的なユーザーと下流のユーザーの両方）は、モデルのリスク、バイアス、および制限について認識されるべきです。このモデルには、追加の注意事項や推奨事項はありません。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2103-13413,
  author    = {Ren{\'{e}} Ranftl and
               Alexey Bochkovskiy and
               Vladlen Koltun},
  title     = {Vision Transformers for Dense Prediction},
  journal   = {CoRR},
  volume    = {abs/2103.13413},
  year      = {2021},
  url       = {https://arxiv.org/abs/2103.13413},
  eprinttype = {arXiv},
  eprint    = {2103.13413},
  timestamp = {Wed, 07 Apr 2021 15:31:46 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2103-13413.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}