🚀 金盞花固有圖像分解(IID)光照v1 - 1模型卡片
本模型卡片介紹了用於單圖像固有圖像分解(IID)的marigold - iid - lighting - v1 - 1
模型。該模型基於stable - diffusion - 2
模型微調而來,可有效對圖像進行分解,為圖像分析提供有力支持。
🚀 快速開始
本模型類型(lighting
)經過訓練,可將HyperSim圖像分解為反照率(Albedo)、漫反射陰影(Diffuse shading)和非漫反射殘差(Non - diffuse residual)。這種分解符合固有殘差模型 \(I = A*S+R\),其中圖像 \(I\) 由三通道反照率 \(A\)、三通道漫反射陰影分量 \(S\)(代表光照顏色)和一個三通道殘差項 \(R\) 組成,殘差項 \(R\) 用於捕捉非漫反射效果。輸入為sRGB顏色空間,而所有輸出均為線性空間。
- 體驗交互式演示:點擊[Hugging Face Spaces演示](https://huggingface.co/spaces/prs - eth/marigold - iid),查看模型如何處理示例圖像,也可以上傳自己的圖像。
- 使用代碼調用:藉助[diffusers](https://huggingface.co/docs/diffusers/using - diffusers/marigold_usage),只需幾行代碼即可計算結果。
- 查看官方代碼庫:訪問[官方代碼庫](https://github.com/prs - eth/marigold)深入瞭解模型。
✨ 主要特性
- 基於擴散模型微調:該模型從
stable - diffusion - 2
模型微調而來,繼承了其強大的圖像生成能力。
- 多組件分解:能夠將圖像分解為反照率、漫反射陰影和非漫反射殘差,為圖像分析提供更豐富的信息。
- 符合固有殘差模型:分解結果符合 \(I = A*S+R\) 模型,具有良好的理論基礎。
📚 詳細文檔
模型詳情
- 開發者:柯冰心(Bingxin Ke)、[凱文·曲(Kevin Qu)](https://ch.linkedin.com/in/kevin - qu - b3417621b)、王天富(Tianfu Wang)、南多·梅茨格(Nando Metzger)、黃聖宇(Shengyu Huang)、李博(Bo Li)、安東·奧布霍夫(Anton Obukhov)、康拉德·辛德勒(Konrad Schindler)。
- 模型類型:基於生成式潛在擴散的單圖像固有圖像分解(光照:反照率、漫反射陰影和非漫反射殘差)。
- 語言:英文。
- 許可證:[CreativeML Open RAIL++ - M許可證](https://huggingface.co/stabilityai/stable - diffusion - 2/blob/main/LICENSE - MODEL)。
- 模型描述:該模型可用於生成輸入圖像的估計固有圖像分解。
- 分辨率:儘管可以處理任何分辨率的圖像,但模型繼承了基礎擴散模型約768像素的有效分辨率。這意味著為了獲得最佳預測效果,任何較大的輸入圖像在輸入模型之前應調整大小,使長邊為768像素。
- 步驟和調度器:該模型設計用於與DDIM調度器配合使用,去噪步驟在1到50之間。
- 輸出:
- 反照率:預測值在0到1之間,線性空間。
- 漫反射陰影:預測值在0到1之間,線性空間。
- 非漫反射殘差:預測值在0到1之間,線性空間。
- 不確定性圖:僅當多個預測以大於2的集成大小進行集成時,才會為每個模態生成。
- 更多信息資源:項目網站、論文、[代碼](https://github.com/prs - eth/marigold)。
- 引用格式:
@misc{ke2025marigold,
title={Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis},
author={Bingxin Ke and Kevin Qu and Tianfu Wang and Nando Metzger and Shengyu Huang and Bo Li and Anton Obukhov and Konrad Schindler},
year={2025},
eprint={2505.09358},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@InProceedings{ke2023repurposing,
title={Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation},
author={Bingxin Ke and Anton Obukhov and Shengyu Huang and Nando Metzger and Rodrigo Caye Daudt and Konrad Schindler},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2024}
}
📄 許可證
本模型使用[CreativeML Open RAIL++ - M許可證](https://huggingface.co/stabilityai/stable - diffusion - 2/blob/main/LICENSE - MODEL)。