🚀 LDM3Dモデル
LDM3Dモデルは、Gabriela Ben Melech Stan、Diana Wofk、Scottie Fox、Alex Redden、Will Saxton、Jean Yu、Estelle Aflalo、Shao - Yen Tseng、Fabio Nonato、Matthias Muller、Vasudev Lalによって著された論文LDM3D: Latent Diffusion Model for 3Dで提案されました。
LDM3Dは、2023年にIEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR)に採択されました。
より良い結果を得るために、少し異なるアーキテクチャに基づく新しいチェックポイントldm3d - 4cをぜひ使ってみてください。
以下の新しいLDM3Dモデルチェックポイントがリリースされています:
✨ 主な機能
このモデルは、与えられたテキストプロンプトからRGB画像と深度マップを生成することができます。また、3D用の潜在拡散モデルとして、様々な分野でのコンテンツ作成やデジタル体験の革新に貢献する可能性があります。
📦 インストール
このモデルを使用するには、diffusers
ライブラリをインストールする必要があります。以下のコマンドでインストールできます:
pip install diffusers
💻 使用例
基本的な使用法
from diffusers import StableDiffusionLDM3DPipeline
pipe = StableDiffusionLDM3DPipeline.from_pretrained("Intel/ldm3d")
pipe.to("cpu")
pipe.to("cuda")
prompt = "A picture of some lemons on a table"
name = "lemons"
output = pipe(prompt)
rgb_image, depth_image = output.rgb, output.depth
rgb_image[0].save(name+"_ldm3d_rgb.jpg")
depth_image[0].save(name+"_ldm3d_depth.png")
これが結果です:

📚 ドキュメント
モデルの詳細
論文の概要は以下の通りです:
この研究論文では、与えられたテキストプロンプトから画像と深度マップのデータを生成する3D用の潜在拡散モデル(LDM3D)を提案しています。これにより、ユーザーはテキストプロンプトからRGBD画像を生成することができます。LDM3Dモデルは、RGB画像、深度マップ、キャプションを含むタプルのデータセットで微調整され、広範な実験を通じて検証されています。また、TouchDesignerを使用して没入型でインタラクティブな360度ビュー体験を作成するDepthFusionというアプリケーションも開発しています。この技術は、エンターテイメントやゲームから建築やデザインまで、幅広い産業を変革する可能性があります。全体として、この論文は生成AIとコンピュータビジョンの分野に大きな貢献をしており、LDM3DとDepthFusionがコンテンツ作成とデジタル体験を革命化する可能性を示しています。
LDM3Dの概要はLDM3D論文から引用されています。
トレーニングデータ
LDM3Dモデルは、LAION - 400Mデータセットのサブセットから構築されたデータセットで微調整されました。LAION - 400Mは、4億以上の画像とキャプションのペアを含む大規模な画像 - キャプションデータセットです。
微調整
微調整プロセスは2段階から構成されています。最初の段階では、低次元で知覚的に同等なデータ表現を生成するオートエンコーダーを学習させます。その後、凍結されたオートエンコーダーを使用して拡散モデルを微調整します。
評価結果
定量的な結果
以下の表は、50のDDIMステップを使用した512 x 512サイズのMS - COCOデータセットでのテキスト条件付き画像合成の定量的な結果を示しています。
手法 |
FID ↓ |
IS ↑ |
CLIP ↑ |
SD v1.4 |
28.08 |
34.17 ± 0.76 |
26.13 ± 2.81 |
SD v1.5 |
27.39 |
34.02 ± 0.79 |
26.13 ± 2.79 |
LDM3D (ours) |
27.82 |
28.79 ± 0.49 |
26.61 ± 2.92 |
当社のモデルは、同じパラメータ数(1.06B)のStable Diffusionモデルと同等の性能を示しています。ISとCLIPの類似度スコアは、MS - COCOデータセットの30kのキャプションに対して平均化されています。
以下の表は、基準モデルとしてのZoeDepth - Nに対するLDM3DとDPT - Largeの深度評価の結果を示しています。
手法 |
AbsRel |
RMSE [m] |
LDM3D |
0.0911 |
0.334 |
DPT - Large |
0.0779 |
0.297 |
上記の結果は、LDM3D論文の表1と表2を参照することができます。
定性的な結果
以下の図は、当社の手法とStable Diffusion v1.4およびDPT - Largeの深度マップを比較した定性的な結果を示しています。

🔧 技術詳細
このモデルは、3D用の潜在拡散モデルであり、テキストプロンプトからRGB画像と深度マップを生成することができます。トレーニングデータとしてLAION - 400Mデータセットのサブセットを使用し、微調整には2段階のプロセスを採用しています。
📄 ライセンス
このモデルのライセンスは、creativeml - openrail - mです。
エチカルな考慮事項と制限
画像生成に関しては、Stable Diffusionの制限とバイアスが適用されます。深度マップ生成に関しては、基準としてDPT - largeを使用しているため、DPTの他の制限とバイアスも適用されます。
注意事項と推奨事項
ユーザー(直接および下流の両方)は、このモデルのリスク、バイアス、および制限を認識する必要があります。
IntelのAIソフトウェアについて詳しく学ぶための有用なリンクをいくつか紹介します:
免責事項
このモデルのライセンスは法的なアドバイスを構成するものではありません。このモデルを使用する第三者の行動について、当社は責任を負いません。商用目的でこのモデルを使用する前に、弁護士に相談してください。
BibTeXエントリと引用情報
@misc{stan2023ldm3d,
title={LDM3D: Latent Diffusion Model for 3D},
author={Gabriela Ben Melech Stan and Diana Wofk and Scottie Fox and Alex Redden and Will Saxton and Jean Yu and Estelle Aflalo and Shao-Yen Tseng and Fabio Nonato and Matthias Muller and Vasudev Lal},
year={2023},
eprint={2305.10853},
archivePrefix={arXiv},
primaryClass={cs.CV}
}