Depth Anything V2開源深度估計模型 - 精準捕捉細節，免費暢享強大深度感知

首頁

Depth Anything V2 Base Hf

由depth-anything開發

Depth Anything V2 是目前最強大的單目深度估計模型，基於59.5萬張合成標註圖像和6200萬+真實無標註圖像訓練而成，具有更精細的細節和更強的魯棒性。

3D視覺

Transformers

#單目深度估計 #零樣本學習 #高精度細節

下載量 47.73k

發布時間 : 6/20/2024

模型概述

Depth Anything V2 是一個用於單目深度估計的先進模型，能夠從單張圖像預測深度信息。它基於DPT架構，以DINOv2為骨幹網絡，適用於零樣本深度估計任務。

模型特點

精細深度細節

比V1版本展現更精細的深度細節

卓越魯棒性

比V1版本和基於SD的模型（如Marigold、Geowizard）更魯棒

高效輕量

比基於SD的模型快10倍且更輕量

大規模訓練數據

基於59.5萬張合成標註圖像和6200萬+真實無標註圖像訓練

模型能力

單目深度估計

零樣本深度預測

圖像深度分析

使用案例

計算機視覺

3D場景重建

從單張圖像估計深度信息，用於3D場景重建

提供精確的深度預測，支持3D建模

增強現實

為AR應用提供即時深度信息

增強虛擬物體在真實場景中的放置效果

自動駕駛

輔助自動駕駛系統理解場景深度

提高環境感知能力

🚀 深度任意模型V2基礎版 - Transformers版本

深度任意模型V2基於59.5萬張合成標註圖像和6200萬張以上真實未標註圖像進行訓練，是目前最強大的單目深度估計（MDE）模型，具備以下特性：

比深度任意模型V1擁有更精細的細節
比深度任意模型V1和基於Stable Diffusion（SD）的模型（如Marigold、Geowizard）更穩健
比基於SD的模型更高效（快10倍）、更輕量級
使用預訓練模型進行微調後，能取得出色的性能

此模型檢查點與Transformers庫兼容。

深度任意模型V2由李和（Lihe Yang）等人在同名論文《深度任意模型V2》中提出。它採用了與原始深度任意模型相同的架構，但利用合成數據和更大容量的教師模型，實現了更精細、更穩健的深度預測。原始深度任意模型由李和（Lihe Yang）等人在論文《深度任意模型：釋放大規模未標註數據的力量》中提出，並首次在該倉庫發佈。

在線演示。

🚀 快速開始

深度任意模型V2是一款強大的單目深度估計模型，下面為你介紹其基本信息和使用方法。

✨ 主要特性

細節更精細：相較於深度任意模型V1，深度任意模型V2能捕捉到更多的圖像細節。
性能更穩健：比深度任意模型V1和基於SD的模型（如Marigold、Geowizard）更穩定，在不同場景下都能有較好的表現。
高效輕量級：比基於SD的模型更高效，推理速度快10倍，同時模型體積更小。
微調效果好：使用預訓練模型進行微調後，能在特定任務上取得出色的性能。

📚 詳細文檔

模型描述

深度任意模型V2採用了DPT架構，並以DINOv2作為骨幹網絡。

該模型在約60萬張合成標註圖像和約6200萬張真實未標註圖像上進行訓練，在相對深度估計和絕對深度估計任務上都取得了最先進的成果。

深度任意模型概述

深度任意模型概述。取自原論文。

預期用途與限制

你可以使用該原始模型進行零樣本深度估計任務。你可以在模型中心查找其他版本以滿足你的特定需求。

模型信息表格

屬性	詳情
模型類型	基於DPT架構和DINOv2骨幹網絡的單目深度估計模型
訓練數據	約60萬張合成標註圖像和約6200萬張真實未標註圖像

💻 使用示例

基礎用法

以下是使用該模型進行零樣本深度估計的示例代碼：

from transformers import pipeline
from PIL import Image
import requests

# 加載管道
pipe = pipeline(task="depth-estimation", model="depth-anything/Depth-Anything-V2-Base-hf")

# 加載圖像
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

# 推理
depth = pipe(image)["depth"]

高級用法

你也可以使用模型和處理器類進行深度估計：

from transformers import AutoImageProcessor, AutoModelForDepthEstimation
import torch
import numpy as np
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

image_processor = AutoImageProcessor.from_pretrained("depth-anything/Depth-Anything-V2-Base-hf")
model = AutoModelForDepthEstimation.from_pretrained("depth-anything/Depth-Anything-V2-Base-hf")

# 為模型準備圖像
inputs = image_processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    predicted_depth = outputs.predicted_depth

# 插值到原始大小
prediction = torch.nn.functional.interpolate(
    predicted_depth.unsqueeze(1),
    size=image.size[::-1],
    mode="bicubic",
    align_corners=False,
)

更多代碼示例請參考文檔。

引用信息

@misc{yang2024depth,
      title={Depth Anything V2}, 
      author={Lihe Yang and Bingyi Kang and Zilong Huang and Zhen Zhao and Xiaogang Xu and Jiashi Feng and Hengshuang Zhao},
      year={2024},
      eprint={2406.09414},
      archivePrefix={arXiv},
      primaryClass={id='cs.CV' full_name='Computer Vision and Pattern Recognition' is_active=True alt_name=None in_archive='cs' is_general=False description='Covers image processing, computer vision, pattern recognition, and scene understanding. Roughly includes material in ACM Subject Classes I.2.10, I.4, and I.5.'}
}