🚀 金盏花固有图像分解(IID)光照v1 - 1模型卡片
本模型卡片介绍了用于单图像固有图像分解(IID)的marigold - iid - lighting - v1 - 1
模型。该模型基于stable - diffusion - 2
模型微调而来,可有效对图像进行分解,为图像分析提供有力支持。
🚀 快速开始
本模型类型(lighting
)经过训练,可将HyperSim图像分解为反照率(Albedo)、漫反射阴影(Diffuse shading)和非漫反射残差(Non - diffuse residual)。这种分解符合固有残差模型 \(I = A*S+R\),其中图像 \(I\) 由三通道反照率 \(A\)、三通道漫反射阴影分量 \(S\)(代表光照颜色)和一个三通道残差项 \(R\) 组成,残差项 \(R\) 用于捕捉非漫反射效果。输入为sRGB颜色空间,而所有输出均为线性空间。
- 体验交互式演示:点击[Hugging Face Spaces演示](https://huggingface.co/spaces/prs - eth/marigold - iid),查看模型如何处理示例图像,也可以上传自己的图像。
- 使用代码调用:借助[diffusers](https://huggingface.co/docs/diffusers/using - diffusers/marigold_usage),只需几行代码即可计算结果。
- 查看官方代码库:访问[官方代码库](https://github.com/prs - eth/marigold)深入了解模型。
✨ 主要特性
- 基于扩散模型微调:该模型从
stable - diffusion - 2
模型微调而来,继承了其强大的图像生成能力。
- 多组件分解:能够将图像分解为反照率、漫反射阴影和非漫反射残差,为图像分析提供更丰富的信息。
- 符合固有残差模型:分解结果符合 \(I = A*S+R\) 模型,具有良好的理论基础。
📚 详细文档
模型详情
- 开发者:柯冰心(Bingxin Ke)、[凯文·曲(Kevin Qu)](https://ch.linkedin.com/in/kevin - qu - b3417621b)、王天富(Tianfu Wang)、南多·梅茨格(Nando Metzger)、黄圣宇(Shengyu Huang)、李博(Bo Li)、安东·奥布霍夫(Anton Obukhov)、康拉德·辛德勒(Konrad Schindler)。
- 模型类型:基于生成式潜在扩散的单图像固有图像分解(光照:反照率、漫反射阴影和非漫反射残差)。
- 语言:英文。
- 许可证:[CreativeML Open RAIL++ - M许可证](https://huggingface.co/stabilityai/stable - diffusion - 2/blob/main/LICENSE - MODEL)。
- 模型描述:该模型可用于生成输入图像的估计固有图像分解。
- 分辨率:尽管可以处理任何分辨率的图像,但模型继承了基础扩散模型约768像素的有效分辨率。这意味着为了获得最佳预测效果,任何较大的输入图像在输入模型之前应调整大小,使长边为768像素。
- 步骤和调度器:该模型设计用于与DDIM调度器配合使用,去噪步骤在1到50之间。
- 输出:
- 反照率:预测值在0到1之间,线性空间。
- 漫反射阴影:预测值在0到1之间,线性空间。
- 非漫反射残差:预测值在0到1之间,线性空间。
- 不确定性图:仅当多个预测以大于2的集成大小进行集成时,才会为每个模态生成。
- 更多信息资源:项目网站、论文、[代码](https://github.com/prs - eth/marigold)。
- 引用格式:
@misc{ke2025marigold,
title={Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis},
author={Bingxin Ke and Kevin Qu and Tianfu Wang and Nando Metzger and Shengyu Huang and Bo Li and Anton Obukhov and Konrad Schindler},
year={2025},
eprint={2505.09358},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@InProceedings{ke2023repurposing,
title={Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation},
author={Bingxin Ke and Anton Obukhov and Shengyu Huang and Nando Metzger and Rodrigo Caye Daudt and Konrad Schindler},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2024}
}
📄 许可证
本模型使用[CreativeML Open RAIL++ - M许可证](https://huggingface.co/stabilityai/stable - diffusion - 2/blob/main/LICENSE - MODEL)。