🚀 LDM3D-4C模型
LDM3D模型能够根据给定的文本提示生成图像和深度图数据,让用户从文本提示中生成RGBD图像。该模型在相关实验中得到了验证,还开发了名为DepthFusion的应用程序,具有广泛的应用潜力。
🚀 快速开始
LDM3D模型在论文 LDM3D: Latent Diffusion Model for 3D 中被提出,作者为Gabriela Ben Melech Stan、Diana Wofk、Scottie Fox、Alex Redden、Will Saxton、Jean Yu、Estelle Aflalo、Shao-Yen Tseng、Fabio Nonato、Matthias Muller和Vasudev Lal。
LDM3D于2023年被 IEEE / CVF计算机视觉与模式识别会议 (CVPR) 收录。
与之前的版本相比,这个新的检查点将深度作为一个通道。
✨ 主要特性
- 能够根据文本提示生成图像和深度图数据,可生成RGBD图像。
- 模型在包含RGB图像、深度图和标题的元组数据集上进行了微调,并通过大量实验验证。
- 开发了名为DepthFusion的应用程序,可使用img2img管道创建沉浸式和交互式360度视图体验。
📚 详细文档
模型详情
论文摘要如下:本研究论文提出了一种用于3D的潜在扩散模型(LDM3D),该模型可以从给定的文本提示中生成图像和深度图数据,使用户能够从文本提示中生成RGBD图像。LDM3D模型在包含RGB图像、深度图和标题的元组数据集上进行了微调,并通过大量实验进行了验证。我们还开发了一个名为DepthFusion的应用程序,它使用img2img管道,通过TouchDesigner创建沉浸式和交互式360度视图体验。这项技术有潜力改变从娱乐、游戏到建筑和设计等广泛的行业。总体而言,本文对生成式AI和计算机视觉领域做出了重要贡献,并展示了LDM3D和DepthFusion在彻底改变内容创作和数字体验方面的潜力。
LDM3D概述取自 LDM3D论文。
使用方法
你可以使用此模型根据文本提示生成RGB图像和深度图。
可以在 此链接 找到总结该方法的简短视频,在 这里 找到VR演示。
也可以在 Spaces 上访问演示。
以下是如何在CPU和GPU架构上使用PyTorch获取给定文本的特征:
from diffusers import StableDiffusionLDM3DPipeline
pipe = StableDiffusionLDM3DPipeline.from_pretrained("Intel/ldm3d-4c")
pipe.to("cpu")
pipe.to("cuda")
prompt = "A picture of some lemons on a table"
name = "lemons"
output = pipe(prompt)
rgb_image, depth_image = output.rgb, output.depth
rgb_image[0].save(name+"_ldm3d_4c_rgb.jpg")
depth_image[0].save(name+"_ldm3d_4c_depth.png")
这是结果:

训练数据
LDM3D模型在从LAION - 400M数据集中的一个子集构建的数据集上进行了微调,LAION - 400M是一个大规模的图像 - 标题数据集,包含超过4亿个图像 - 标题对。
微调
微调过程包括两个阶段。在第一阶段,我们训练一个自动编码器以生成低维、感知等效的数据表示。随后,我们使用冻结的自动编码器微调扩散模型。
评估结果
定量结果
下表显示了在512 x 512大小的MS - COCO数据集上,使用50个DDIM步骤进行文本条件图像合成的定量结果。
方法 |
FID ↓ |
IS ↑ |
CLIP ↑ |
SD v1.4 |
28.08 |
34.17 ± 0.76 |
26.13 ± 2.81 |
SD v1.5 |
27.39 |
34.02 ± 0.79 |
26.13 ± 2.79 |
LDM3D (我们的模型) |
27.82 |
28.79 ± 0.49 |
26.61 ± 2.92 |
我们的模型与具有相同参数数量(10.6亿)的Stable Diffusion模型相当。IS和CLIP相似度分数是对MS - COCO数据集中30k个标题的平均值。
下表显示了将LDM3D和DPT - Large与作为参考模型的ZoeDepth - N进行深度评估的结果。
方法 |
AbsRel |
RMSE [m] |
LDM3D |
0.0911 |
0.334 |
DPT - Large |
0.0779 |
0.297 |
上述结果可参考 LDM3D论文 中的表1和表2。
定性结果
下图显示了将我们的方法与 Stable Diffusion v1.4 和 DPT - Large 进行深度图比较的一些定性结果。
伦理考量和局限性
对于图像生成,Stable Diffusion 的局限性和偏差适用。对于深度图生成,第一个局限性是我们使用DPT - large来生成地面真值,因此,DPT 的其他局限性和偏差也适用。
注意事项和建议
用户(直接用户和下游用户)应该了解模型的风险、偏差和局限性。
以下是一些了解更多英特尔AI软件的有用链接:
免责声明
此模型的许可证不构成法律建议。我们不对使用此模型的第三方的行为负责。在将此模型用于商业目的之前,请咨询律师。
BibTeX条目和引用信息
@misc{stan2023ldm3d,
title={LDM3D: Latent Diffusion Model for 3D},
author={Gabriela Ben Melech Stan and Diana Wofk and Scottie Fox and Alex Redden and Will Saxton and Jean Yu and Estelle Aflalo and Shao-Yen Tseng and Fabio Nonato and Matthias Muller and Vasudev Lal},
year={2023},
eprint={2305.10853},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
模型信息表格
属性 |
详情 |
模型类型 |
用于3D - 4C的潜在扩散模型 |
训练数据 |
LAION - 400M数据集的子集 |
评估指标 |
FID: 27.82;IS: 28.79;CLIP: 26.61;AbsRel: 0.0911;RMSE [m]: 0.334 |
许可证 |
creativeml - openrail - m |