DepthPro-mixin開源深度估計模型 - 零樣本單目測距合成高分辨率深度圖

首頁

Depthpro Mixin

由apple開發

一款零樣本單目測距深度估計基礎模型，能合成具有無與倫比銳度和高頻細節的高分辨率深度圖

3D視覺

Safetensors

#亞秒級測距 #零樣本深度估計 #高頻細節保留

下載量 17

發布時間 : 10/5/2024

模型概述

Depth Pro是一款高性能單目深度估計模型，能夠快速生成帶絕對尺度的度量深度圖，無需依賴相機內參等元數據。

模型特點

亞秒級推理速度

在標準GPU上僅需0.3秒即可生成225萬像素的深度圖

高精度邊界追蹤

結合真實與合成數據的訓練方案，保持精細邊界追蹤能力

無需相機參數

預測結果為帶絕對尺度的度量值，無需依賴相機內參等元數據

焦距估計能力

集成從單幅圖像進行焦距估計的尖端技術

模型能力

單目深度估計

度量深度預測

高頻細節保留

快速推理

使用案例

計算機視覺

3D場景重建

從單張圖像重建3D場景

生成帶絕對尺度的精確深度圖

增強現實

為AR應用提供即時深度信息

支持虛擬物體與真實場景的精確交互

機器人技術

自主導航

為機器人提供環境深度感知

支持避障和路徑規劃

🚀 Depth Pro：一秒內實現清晰單目度量深度估計

我們推出了一種用於零樣本度量單目深度估計的基礎模型。我們的模型“Depth Pro”能夠合成具有無與倫比清晰度和高頻細節的高分辨率深度圖。其預測結果是具有絕對尺度的度量值，無需依賴相機內參等元數據。並且該模型速度極快，在標準GPU上僅需0.3秒就能生成一張225萬像素的深度圖。這些特性得益於多項技術創新，包括用於密集預測的高效多尺度視覺變換器、結合真實和合成數據集以實現高度量精度和精細邊界追蹤的訓練方案、用於評估估計深度圖邊界精度的專用評估指標，以及從單張圖像進行的最先進的焦距估計技術。

Depth Pro在論文 Depth Pro: Sharp Monocular Metric Depth in Less Than a Second 中被首次提出，作者為 Aleksei Bochkovskii、Amaël Delaunoy、Hugo Germain、Marcel Santos、Yichao Zhou、Stephan R. Richter 和 Vladlen Koltun。

本倉庫中的檢查點是一個參考實現，已經過重新訓練。其性能接近論文中報告的模型，但並不完全一致。

Depth Pro演示圖

🚀 快速開始

請按照代碼倉庫中的步驟設置您的環境。然後您可以：

💻 使用示例

基礎用法

from huggingface_hub import PyTorchModelHubMixin
from depth_pro import create_model_and_transforms, load_rgb
from depth_pro.depth_pro import (create_backbone_model, load_monodepth_weights,
                                 DepthPro, DepthProEncoder, MultiresConvDecoder)
import depth_pro
from torchvision.transforms import Compose, Normalize, ToTensor


class DepthProWrapper(DepthPro, PyTorchModelHubMixin):
    """Depth Pro網絡。"""

    def __init__(
        self,
        patch_encoder_preset: str,
        image_encoder_preset: str,
        decoder_features: str,
        fov_encoder_preset: str,
        use_fov_head: bool = True,
        **kwargs,
    ):
        """初始化Depth Pro。"""

        patch_encoder, patch_encoder_config = create_backbone_model(
            preset=patch_encoder_preset
        )
        image_encoder, _ = create_backbone_model(
            preset=image_encoder_preset
        )

        fov_encoder = None
        if use_fov_head and fov_encoder_preset is not None:
            fov_encoder, _ = create_backbone_model(preset=fov_encoder_preset)

        dims_encoder = patch_encoder_config.encoder_feature_dims
        hook_block_ids = patch_encoder_config.encoder_feature_layer_ids
        encoder = DepthProEncoder(
            dims_encoder=dims_encoder,
            patch_encoder=patch_encoder,
            image_encoder=image_encoder,
            hook_block_ids=hook_block_ids,
            decoder_features=decoder_features,
        )
        decoder = MultiresConvDecoder(
            dims_encoder=[encoder.dims_encoder[0]] + list(encoder.dims_encoder),
            dim_decoder=decoder_features,
        )

        super().__init__(
            encoder=encoder,
            decoder=decoder,
            last_dims=(32, 1),
            use_fov_head=use_fov_head,
            fov_encoder=fov_encoder,
        )


# 加載模型和預處理轉換
model = DepthProWrapper.from_pretrained("apple/DepthPro-mixin")
transform = Compose(
        [
            ToTensor(),
            Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5]),
        ]
    )


model.eval()

# 加載並預處理圖像。
image, _, f_px = depth_pro.load_rgb(image_path)
image = transform(image)

# 運行推理。
prediction = model.infer(image, f_px=f_px)
depth = prediction["depth"]  # 深度，單位為米。
focallength_px = prediction["focallength_px"]  # 焦距，單位為像素。

高級用法

# 邊界指標評估代碼
# 對於基於深度的數據集
boundary_f1 = SI_boundary_F1(predicted_depth, target_depth)

# 對於基於掩碼的數據集（圖像摳圖/分割） 
boundary_recall = SI_boundary_Recall(predicted_depth, target_mask)

📄 許可證

本項目使用的許可證為apple-amlr。

📚 詳細文檔

引用

如果您覺得我們的工作有用，請引用以下論文：

@article{Bochkovskii2024:arxiv,
  author     = {Aleksei Bochkovskii and Ama\"{e}l Delaunoy and Hugo Germain and Marcel Santos and
               Yichao Zhou and Stephan R. Richter and Vladlen Koltun}
  title      = {Depth Pro: Sharp Monocular Metric Depth in Less Than a Second},
  journal    = {arXiv},
  year       = {2024},
}