D

Dpt Large

由Intel開發
基於視覺變換器(ViT)的單目深度估計模型,在140萬張圖像上訓練,適用於零樣本深度預測任務。
下載量 364.62k
發布時間 : 3/2/2022

模型概述

密集預測變換器(DPT)模型,專門用於從單張圖像估計深度信息,無需針對特定場景微調即可實現跨數據集遷移。

模型特點

零樣本遷移能力
無需微調即可在新數據集上實現良好性能,DIW WHDR指標達10.82
多數據集訓練
基於MIX-6數據集(約140萬張圖像)訓練,涵蓋多樣化場景
視覺變換器架構
採用ViT骨幹網絡結合專用預測頭,實現密集預測任務

模型能力

單圖像深度估計
跨數據集零樣本遷移
密集預測轉換

使用案例

計算機視覺
場景理解
從單張RGB圖像推斷場景深度信息
可生成與輸入圖像分辨率相同的深度圖
增強現實
為AR應用提供即時深度感知
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase