🚀 深度任意模型V2基礎版 - Transformers版本
深度任意模型V2基於59.5萬張合成標註圖像和6200萬張以上真實未標註圖像進行訓練,是目前最強大的單目深度估計(MDE)模型,具備以下特性:
- 比深度任意模型V1擁有更精細的細節
- 比深度任意模型V1和基於Stable Diffusion(SD)的模型(如Marigold、Geowizard)更穩健
- 比基於SD的模型更高效(快10倍)、更輕量級
- 使用預訓練模型進行微調後,能取得出色的性能
此模型檢查點與Transformers庫兼容。
深度任意模型V2由李和(Lihe Yang)等人在同名論文《深度任意模型V2》中提出。它採用了與原始深度任意模型相同的架構,但利用合成數據和更大容量的教師模型,實現了更精細、更穩健的深度預測。原始深度任意模型由李和(Lihe Yang)等人在論文《深度任意模型:釋放大規模未標註數據的力量》中提出,並首次在該倉庫發佈。
在線演示。
🚀 快速開始
深度任意模型V2是一款強大的單目深度估計模型,下面為你介紹其基本信息和使用方法。
✨ 主要特性
- 細節更精細:相較於深度任意模型V1,深度任意模型V2能捕捉到更多的圖像細節。
- 性能更穩健:比深度任意模型V1和基於SD的模型(如Marigold、Geowizard)更穩定,在不同場景下都能有較好的表現。
- 高效輕量級:比基於SD的模型更高效,推理速度快10倍,同時模型體積更小。
- 微調效果好:使用預訓練模型進行微調後,能在特定任務上取得出色的性能。
📚 詳細文檔
模型描述
深度任意模型V2採用了DPT架構,並以DINOv2作為骨幹網絡。
該模型在約60萬張合成標註圖像和約6200萬張真實未標註圖像上進行訓練,在相對深度估計和絕對深度估計任務上都取得了最先進的成果。

深度任意模型概述。取自原論文。
預期用途與限制
你可以使用該原始模型進行零樣本深度估計任務。你可以在模型中心查找其他版本以滿足你的特定需求。
模型信息表格
屬性 |
詳情 |
模型類型 |
基於DPT架構和DINOv2骨幹網絡的單目深度估計模型 |
訓練數據 |
約60萬張合成標註圖像和約6200萬張真實未標註圖像 |
💻 使用示例
基礎用法
以下是使用該模型進行零樣本深度估計的示例代碼:
from transformers import pipeline
from PIL import Image
import requests
pipe = pipeline(task="depth-estimation", model="depth-anything/Depth-Anything-V2-Base-hf")
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
depth = pipe(image)["depth"]
高級用法
你也可以使用模型和處理器類進行深度估計:
from transformers import AutoImageProcessor, AutoModelForDepthEstimation
import torch
import numpy as np
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
image_processor = AutoImageProcessor.from_pretrained("depth-anything/Depth-Anything-V2-Base-hf")
model = AutoModelForDepthEstimation.from_pretrained("depth-anything/Depth-Anything-V2-Base-hf")
inputs = image_processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
predicted_depth = outputs.predicted_depth
prediction = torch.nn.functional.interpolate(
predicted_depth.unsqueeze(1),
size=image.size[::-1],
mode="bicubic",
align_corners=False,
)
更多代碼示例請參考文檔。
引用信息
@misc{yang2024depth,
title={Depth Anything V2},
author={Lihe Yang and Bingyi Kang and Zilong Huang and Zhen Zhao and Xiaogang Xu and Jiashi Feng and Hengshuang Zhao},
year={2024},
eprint={2406.09414},
archivePrefix={arXiv},
primaryClass={id='cs.CV' full_name='Computer Vision and Pattern Recognition' is_active=True alt_name=None in_archive='cs' is_general=False description='Covers image processing, computer vision, pattern recognition, and scene understanding. Roughly includes material in ACM Subject Classes I.2.10, I.4, and I.5.'}
}
📄 許可證
本項目採用CC BY-NC 4.0許可證。