🚀 LDM3D模型
LDM3D模型是一个能够根据文本提示生成图像和深度图数据的模型,用户可借助它从文本提示生成RGBD图像,在多个领域有着潜在的变革性应用。
🚀 快速开始
你可以使用此模型根据文本提示生成RGB图像和深度图。以下是在CPU和GPU架构上使用PyTorch获取给定文本特征的示例代码:
from diffusers import StableDiffusionLDM3DPipeline
pipe = StableDiffusionLDM3DPipeline.from_pretrained("Intel/ldm3d")
pipe.to("cpu")
pipe.to("cuda")
prompt = "A picture of some lemons on a table"
name = "lemons"
output = pipe(prompt)
rgb_image, depth_image = output.rgb, output.depth
rgb_image[0].save(name+"_ldm3d_rgb.jpg")
depth_image[0].save(name+"_ldm3d_depth.png")
运行上述代码后,会得到如下结果:

一个总结该方法的短视频可在此链接查看,VR演示可在这里查看。也可以在Spaces上访问演示。
✨ 主要特性
📚 详细文档
模型详情
LDM3D模型在论文LDM3D: Latent Diffusion Model for 3D中被提出,作者包括Gabriela Ben Melech Stan、Diana Wofk、Scottie Fox等。该模型于2023年被IEEE / CVF计算机视觉与模式识别会议(CVPR)接收。
论文摘要如下:本研究论文提出了一种用于3D的潜在扩散模型(LDM3D),它能从给定的文本提示中生成图像和深度图数据,使用户能够从文本提示生成RGBD图像。LDM3D模型在包含RGB图像、深度图和标题的元组数据集上进行微调,并通过大量实验进行验证。我们还开发了一个名为DepthFusion的应用程序,它使用img2img管道,通过TouchDesigner创建沉浸式和交互式的360度视图体验。这项技术有潜力变革从娱乐和游戏到建筑和设计等广泛的行业。总体而言,本文对生成式AI和计算机视觉领域做出了重要贡献,并展示了LDM3D和DepthFusion在彻底改变内容创作和数字体验方面的潜力。
LDM3D概述取自LDM3D论文。
训练数据
LDM3D模型在从LAION - 400M数据集中的一个子集构建的数据集上进行了微调。LAION - 400M是一个大规模图像 - 标题数据集,包含超过4亿个图像 - 标题对。
微调
微调过程包括两个阶段。在第一阶段,我们训练一个自动编码器以生成低维、感知等效的数据表示。随后,我们使用冻结的自动编码器微调扩散模型。
评估结果
定量结果
下表显示了在512 x 512大小的MS - COCO数据集上,使用50个DDIM步骤进行文本条件图像合成的定量结果。
方法 |
FID ↓ |
IS ↑ |
CLIP ↑ |
SD v1.4 |
28.08 |
34.17 ± 0.76 |
26.13 ± 2.81 |
SD v1.5 |
27.39 |
34.02 ± 0.79 |
26.13 ± 2.79 |
LDM3D (我们的模型) |
27.82 |
28.79 ± 0.49 |
26.61 ± 2.92 |
我们的模型与具有相同参数数量(1.06B)的Stable Diffusion模型相当。IS和CLIP相似度得分是对MS - COCO数据集中30k个标题的平均值。
下表显示了将LDM3D和DPT - Large与作为参考模型的ZoeDepth - N进行深度评估的结果。
方法 |
AbsRel |
RMSE [m] |
LDM3D |
0.0911 |
0.334 |
DPT - Large |
0.0779 |
0.297 |
上述结果可参考LDM3D论文中的表1和表2。
定性结果
下图显示了将我们的方法与Stable Diffusion v1.4和DPT - Large在深度图方面进行比较的一些定性结果。

伦理考量与局限性
对于图像生成,Stable Diffusion的局限性和偏差同样适用。对于深度图生成,一个局限性是我们使用DPT - large来生成地面真值,因此,DPT的其他局限性和偏差也适用。
注意事项和建议
用户(直接用户和下游用户)应了解该模型的风险、偏差和局限性。
以下是一些了解英特尔AI软件的有用链接:
免责声明
此模型的许可证不构成法律建议。我们不对使用此模型的第三方的行为负责。在将此模型用于商业目的之前,请咨询律师。
BibTeX引用和引用信息
@misc{stan2023ldm3d,
title={LDM3D: Latent Diffusion Model for 3D},
author={Gabriela Ben Melech Stan and Diana Wofk and Scottie Fox and Alex Redden and Will Saxton and Jean Yu and Estelle Aflalo and Shao-Yen Tseng and Fabio Nonato and Matthias Muller and Vasudev Lal},
year={2023},
eprint={2305.10853},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
📄 许可证
本模型使用的许可证为creativeml - openrail - m。
模型信息表格
属性 |
详情 |
模型类型 |
用于3D的潜在扩散模型 |
训练数据 |
从LAION - 400M数据集中的一个子集构建的数据集 |