dpt-large開源單目深度估計模型 - 適用於零樣本深度預測任務

首頁

Dpt Large

由Intel開發

基於視覺變換器(ViT)的單目深度估計模型，在140萬張圖像上訓練，適用於零樣本深度預測任務。

3D視覺

Transformers

開源協議:Apache-2.0 #零樣本深度估計 #視覺變換器架構 #多數據集訓練

下載量 364.62k

發布時間 : 3/2/2022

模型概述

密集預測變換器(DPT)模型，專門用於從單張圖像估計深度信息，無需針對特定場景微調即可實現跨數據集遷移。

模型特點

零樣本遷移能力

無需微調即可在新數據集上實現良好性能，DIW WHDR指標達10.82

多數據集訓練

基於MIX-6數據集(約140萬張圖像)訓練，涵蓋多樣化場景

視覺變換器架構

採用ViT骨幹網絡結合專用預測頭，實現密集預測任務

模型能力

單圖像深度估計

跨數據集零樣本遷移

密集預測轉換

使用案例

計算機視覺

場景理解

從單張RGB圖像推斷場景深度信息

可生成與輸入圖像分辨率相同的深度圖

增強現實

為AR應用提供即時深度感知

🚀 DPT-Large（也稱為MiDaS 3.0）

DPT-Large是一個用於單目深度估計的模型，它基於140萬張圖像進行訓練。該模型使用Vision Transformer（ViT）作為骨幹網絡，並添加了頸部和頭部結構，可用於零樣本單目深度估計任務，為相關領域的研究和應用提供了有力支持。

🚀 快速開始

你可以使用以下代碼示例快速開始使用該模型進行單目深度估計。

基礎用法

from transformers import pipeline

pipe = pipeline(task="depth-estimation", model="Intel/dpt-large")
result = pipe(image)
result["depth"]

高級用法

如果你想自己實現整個邏輯，以下是在圖像上進行零樣本深度估計的方法：

from transformers import DPTImageProcessor, DPTForDepthEstimation
import torch
import numpy as np
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = DPTImageProcessor.from_pretrained("Intel/dpt-large")
model = DPTForDepthEstimation.from_pretrained("Intel/dpt-large")

# prepare image for the model
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    predicted_depth = outputs.predicted_depth

# interpolate to original size
prediction = torch.nn.functional.interpolate(
    predicted_depth.unsqueeze(1),
    size=image.size[::-1],
    mode="bicubic",
    align_corners=False,
)

# visualize the prediction
output = prediction.squeeze().cpu().numpy()
formatted = (output * 255 / np.max(output)).astype("uint8")
depth = Image.fromarray(formatted)

更多代碼示例，請參考文檔。

✨ 主要特性

基於大量數據訓練：在140萬張圖像上進行訓練，為單目深度估計提供了強大的能力。
使用ViT骨幹網絡：採用Vision Transformer（ViT）作為骨幹網絡，結合頸部和頭部結構，提升了模型性能。
支持零樣本單目深度估計：可以直接使用原始模型進行零樣本單目深度估計。

📦 安裝指南

文檔未提及具體安裝步驟，可參考模型中心獲取相關信息。

📚 詳細文檔

模型詳情

屬性	詳情
模型作者 - 公司	Intel
日期	2022年3月22日
版本	1
模型類型	計算機視覺 - 單目深度估計
論文或其他資源	用於密集預測的視覺Transformer 和 GitHub倉庫
許可證	Apache 2.0
問題或建議	社區板塊和 Intel開發者Discord

預期用途

預期用途	詳情
主要預期用途	你可以使用原始模型進行零樣本單目深度估計。查看模型中心，尋找針對你感興趣任務的微調版本。
主要預期用戶	任何進行單目深度估計的人員
非預期用途	在大多數情況下，該模型需要針對你的特定任務進行微調。該模型不應被用於故意為人們創造敵對或疏遠的環境。

影響因素

因素	詳情
數據集	多個數據集合並而成
儀器	-
環境	在配備8個物理核心、2.70GHz的Intel Xeon Platinum 8280 CPU和NVIDIA RTX 2080 GPU上完成推理。
提示	在其他硬件和軟件上部署模型會改變模型性能

評估指標

指標	詳情
模型性能指標	零樣本遷移
決策閾值	-
不確定性和變異性處理方法	-

訓練和評估數據

訓練和評估數據	詳情
數據集	數據集名為MIX 6，包含約140萬張圖像。模型使用ImageNet預訓練權重進行初始化。
動機	構建一個強大的單目深度預測網絡
預處理	“我們將圖像調整大小，使較長邊為384像素，並在大小為384的隨機方形裁剪上進行訓練。... 我們進行隨機水平翻轉以進行數據增強。” 更多詳情請參閱Ranftl等人 (2021)。

定量分析

模型	訓練集	DIW WHDR	ETH3D AbsRel	Sintel AbsRel	KITTI δ>1.25	NYU δ>1.25	TUM δ>1.25
DPT - Large	MIX 6	10.82 (-13.2%)	0.089 (-31.2%)	0.270 (-17.5%)	8.46 (-64.6%)	8.32 (-12.9%)	9.97 (-30.3%)
DPT - Hybrid	MIX 6	11.06 (-11.2%)	0.093 (-27.6%)	0.274 (-16.2%)	11.56 (-51.6%)	8.69 (-9.0%)	10.89 (-23.2%)
MiDaS	MIX 6	12.95 (+3.9%)	0.116 (-10.5%)	0.329 (+0.5%)	16.08 (-32.7%)	8.71 (-8.8%)	12.51 (-12.5%)
MiDaS [30]	MIX 5	12.46	0.129	0.327	23.90	9.55	14.29
Li [22]	MD [22]	23.15	0.181	0.385	36.29	27.52	29.54
Li [21]	MC [21]	26.52	0.183	0.405	47.94	18.57	17.71
Wang [40]	WS [40]	19.09	0.205	0.390	31.92	29.57	20.18
Xian [45]	RW [45]	14.59	0.186	0.422	34.08	27.00	25.02
Casser [5]	CS [8]	32.80	0.235	0.422	21.15	39.58	37.18

表1. 單目深度估計與現有技術的比較。我們根據[30]中定義的協議評估零樣本跨數據集遷移。相對性能是相對於原始MiDaS模型[30]計算的。所有指標越低越好。(Ranftl等人, 2021)

倫理考量

倫理考量	詳情
數據	訓練數據來自多個合併的圖像數據集。
人類生命	該模型並非用於為對人類生命或福祉至關重要的決策提供信息。它是單目深度圖像數據集的集合。
緩解措施	在模型開發過程中未考慮額外的風險緩解策略。
風險和危害	使用該模型所涉及的風險程度尚不清楚。
用例	-

注意事項和建議

注意事項和建議
用戶（直接用戶和下游用戶）應瞭解該模型的風險、偏差和侷限性。該模型沒有其他額外的注意事項或建議。

🔧 技術細節

Dense Prediction Transformer (DPT) 模型使用Vision Transformer (ViT) 作為骨幹網絡，並在其基礎上添加了頸部和頭部結構，用於單目深度估計。該模型在140萬張圖像上進行訓練，使用ImageNet預訓練權重進行初始化。在預處理階段，將圖像調整大小使較長邊為384像素，並在大小為384的隨機方形裁剪上進行訓練，同時進行隨機水平翻轉以進行數據增強。更多技術細節可參考用於密集預測的視覺Transformer。

📄 許可證

本模型使用Apache 2.0許可證。

BibTeX引用和引用信息

@article{DBLP:journals/corr/abs-2103-13413,
  author    = {Ren{\'{e}} Ranftl and
               Alexey Bochkovskiy and
               Vladlen Koltun},
  title     = {Vision Transformers for Dense Prediction},
  journal   = {CoRR},
  volume    = {abs/2103.13413},
  year      = {2021},
  url       = {https://arxiv.org/abs/2103.13413},
  eprinttype = {arXiv},
  eprint    = {2103.13413},
  timestamp = {Wed, 07 Apr 2021 15:31:46 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2103-13413.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}