🚀 LDM3D模型
LDM3D模型是一個能夠根據文本提示生成圖像和深度圖數據的模型,用戶可藉助它從文本提示生成RGBD圖像,在多個領域有著潛在的變革性應用。
🚀 快速開始
你可以使用此模型根據文本提示生成RGB圖像和深度圖。以下是在CPU和GPU架構上使用PyTorch獲取給定文本特徵的示例代碼:
from diffusers import StableDiffusionLDM3DPipeline
pipe = StableDiffusionLDM3DPipeline.from_pretrained("Intel/ldm3d")
pipe.to("cpu")
pipe.to("cuda")
prompt = "A picture of some lemons on a table"
name = "lemons"
output = pipe(prompt)
rgb_image, depth_image = output.rgb, output.depth
rgb_image[0].save(name+"_ldm3d_rgb.jpg")
depth_image[0].save(name+"_ldm3d_depth.png")
運行上述代碼後,會得到如下結果:

一個總結該方法的短視頻可在此鏈接查看,VR演示可在這裡查看。也可以在Spaces上訪問演示。
✨ 主要特性
📚 詳細文檔
模型詳情
LDM3D模型在論文LDM3D: Latent Diffusion Model for 3D中被提出,作者包括Gabriela Ben Melech Stan、Diana Wofk、Scottie Fox等。該模型於2023年被IEEE / CVF計算機視覺與模式識別會議(CVPR)接收。
論文摘要如下:本研究論文提出了一種用於3D的潛在擴散模型(LDM3D),它能從給定的文本提示中生成圖像和深度圖數據,使用戶能夠從文本提示生成RGBD圖像。LDM3D模型在包含RGB圖像、深度圖和標題的元組數據集上進行微調,並通過大量實驗進行驗證。我們還開發了一個名為DepthFusion的應用程序,它使用img2img管道,通過TouchDesigner創建沉浸式和交互式的360度視圖體驗。這項技術有潛力變革從娛樂和遊戲到建築和設計等廣泛的行業。總體而言,本文對生成式AI和計算機視覺領域做出了重要貢獻,並展示了LDM3D和DepthFusion在徹底改變內容創作和數字體驗方面的潛力。
LDM3D概述取自LDM3D論文。
訓練數據
LDM3D模型在從LAION - 400M數據集中的一個子集構建的數據集上進行了微調。LAION - 400M是一個大規模圖像 - 標題數據集,包含超過4億個圖像 - 標題對。
微調
微調過程包括兩個階段。在第一階段,我們訓練一個自動編碼器以生成低維、感知等效的數據表示。隨後,我們使用凍結的自動編碼器微調擴散模型。
評估結果
定量結果
下表顯示了在512 x 512大小的MS - COCO數據集上,使用50個DDIM步驟進行文本條件圖像合成的定量結果。
方法 |
FID ↓ |
IS ↑ |
CLIP ↑ |
SD v1.4 |
28.08 |
34.17 ± 0.76 |
26.13 ± 2.81 |
SD v1.5 |
27.39 |
34.02 ± 0.79 |
26.13 ± 2.79 |
LDM3D (我們的模型) |
27.82 |
28.79 ± 0.49 |
26.61 ± 2.92 |
我們的模型與具有相同參數數量(1.06B)的Stable Diffusion模型相當。IS和CLIP相似度得分是對MS - COCO數據集中30k個標題的平均值。
下表顯示了將LDM3D和DPT - Large與作為參考模型的ZoeDepth - N進行深度評估的結果。
方法 |
AbsRel |
RMSE [m] |
LDM3D |
0.0911 |
0.334 |
DPT - Large |
0.0779 |
0.297 |
上述結果可參考LDM3D論文中的表1和表2。
定性結果
下圖顯示了將我們的方法與Stable Diffusion v1.4和DPT - Large在深度圖方面進行比較的一些定性結果。

倫理考量與侷限性
對於圖像生成,Stable Diffusion的侷限性和偏差同樣適用。對於深度圖生成,一個侷限性是我們使用DPT - large來生成地面真值,因此,DPT的其他侷限性和偏差也適用。
注意事項和建議
用戶(直接用戶和下游用戶)應瞭解該模型的風險、偏差和侷限性。
以下是一些瞭解英特爾AI軟件的有用鏈接:
免責聲明
此模型的許可證不構成法律建議。我們不對使用此模型的第三方的行為負責。在將此模型用於商業目的之前,請諮詢律師。
BibTeX引用和引用信息
@misc{stan2023ldm3d,
title={LDM3D: Latent Diffusion Model for 3D},
author={Gabriela Ben Melech Stan and Diana Wofk and Scottie Fox and Alex Redden and Will Saxton and Jean Yu and Estelle Aflalo and Shao-Yen Tseng and Fabio Nonato and Matthias Muller and Vasudev Lal},
year={2023},
eprint={2305.10853},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
📄 許可證
本模型使用的許可證為creativeml - openrail - m。
模型信息表格
屬性 |
詳情 |
模型類型 |
用於3D的潛在擴散模型 |
訓練數據 |
從LAION - 400M數據集中的一個子集構建的數據集 |