marigold-depth-lcm-v1-0開源單目深度估計模型 - 單張圖像即可生成深度圖

首頁

Marigold Depth Lcm V1 0

由prs-eth開發

基於潛在一致性蒸餾方法微調的單目深度估計模型，用於從單張圖像生成深度圖

3D視覺英語開源協議:Apache-2.0 #單目深度估計 #零樣本學習 #潛在一致性模型

下載量 22.45k

發布時間 : 3/18/2024

模型概述

該模型通過改造擴散圖像生成器實現單目深度估計，可生成輸入圖像的估計深度圖和不確定性圖

模型特點

潛在一致性蒸餾

通過潛在一致性蒸餾方法微調，提高模型效率

仿射不變深度估計

生成0到1之間的仿射不變深度圖，插值於模型選擇的近遠平面之間

不確定性估計

當集成預測次數大於2時可生成不確定性圖

高效推理

設計用於LCM調度器及1至4次去噪步驟，實現快速推理

模型能力

單目深度估計

圖像深度分析

不確定性估計

使用案例

計算機視覺

場景深度理解

從單張圖像估計場景中各物體的相對深度

生成仿射不變的深度圖

3D場景重建

為3D重建提供深度信息

輔助構建3D模型

🚀 金盞花深度LCM v1 - 0模型卡片

這是一個用於單目深度估計的marigold - depth - lcm - v1 - 0模型卡片，該模型可從單張圖像中進行單目深度估計。它基於潛在一致性蒸餾方法，從marigold - depth - v1 - 0 [模型](https://huggingface.co/prs - eth/marigold - depth - v1 - 0)微調而來，相關內容在我們的論文中有詳細描述：

CVPR'2024論文，標題為 "Repurposing Diffusion - Based Image Generators for Monocular Depth Estimation"
期刊擴展，標題為 "Marigold: Affordable Adaptation of Diffusion - Based Image Generators for Image Analysis"

🚀 快速開始

體驗交互式演示：可在[Hugging Face Spaces演示](https://huggingface.co/spaces/prs - eth/marigold)中體驗，查看模型對示例圖像的處理效果，也可上傳自己的圖像。
使用diffusers庫：藉助[diffusers](https://huggingface.co/docs/diffusers/using - diffusers/marigold_usage)，只需幾行代碼即可計算結果。
查看官方代碼庫：深入瞭解可訪問我們的[官方代碼庫](https://github.com/prs - eth/marigold)。

✨ 主要特性

多途徑使用：提供在線演示、代碼庫調用等多種使用方式。
基於先進方法微調：採用潛在一致性蒸餾方法進行微調，提升性能。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	柯冰心、[Kevin Qu](https://ch.linkedin.com/in/kevin - qu - b3417621b)、王天富、Nando Metzger、黃聖雨、李博、Anton Obukhov、[Konrad Schindler](https://scholar.google.com/citations?user = FZuNgqIAAAAJ)
模型類型	基於生成式潛在擴散的仿射不變單目深度估計（從單張圖像）
語言	英語
許可證	[Apache License License Version 2.0](https://www.apache.org/licenses/LICENSE - 2.0)
模型描述	該模型可用於生成輸入圖像的估計深度圖。 - 分辨率：儘管可以處理任何分辨率的圖像，但模型繼承了基礎擴散模型約768像素的有效分辨率。這意味著為獲得最佳預測效果，在將較大的輸入圖像輸入模型之前，應將較長邊調整為768像素。 - 步驟和調度器：該模型設計用於與LCM調度器配合使用，去噪步驟為1到4步。 - 輸出： - 仿射不變深度圖：預測值在0到1之間，在模型選擇的近平面和遠平面之間進行插值。 - 不確定性圖：僅在集成大小大於2的多次預測集成時生成。
更多信息資源	項目網站、論文、[代碼](https://github.com/prs - eth/marigold)

引用信息

@misc{ke2025marigold,
  title={Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis},
  author={Bingxin Ke and Kevin Qu and Tianfu Wang and Nando Metzger and Shengyu Huang and Bo Li and Anton Obukhov and Konrad Schindler},
  year={2025},
  eprint={2505.09358},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@InProceedings{ke2023repurposing,
  title={Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation},
  author={Bingxin Ke and Anton Obukhov and Shengyu Huang and Nando Metzger and Rodrigo Caye Daudt and Konrad Schindler},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2024}
}