DiffusionLightオープンソースモデル - 無料でクロムボールを描画して照明プローブを取得、単一画像で照明を推定！

Diffusionlight

DiffusionLightによって開発

クロムボールを描画することで無料で照明プローブを取得する技術。拡散モデルを利用して単一の入力画像から照明を推定

画像生成オープンソースライセンス:MIT #照明推定 #HDR環境マップ #クロムボールレンダリング

ダウンロード数 230

リリース時間 : 12/15/2023

モデル概要

このモデルは数十億の標準画像で訓練された拡散モデルを利用し、入力画像にクロムボールをレンダリングして照明を推定します。LoRAでStable Diffusion XLをファインチューニングし、HDR照明推定のために露出ブラケットを実行可能にします。

モデル特徴

HDRパノラマデータセット不要

拡散モデルを利用して標準画像からクロムボールを生成し、従来手法が依存していた限定的なHDRパノラマデータセットの必要性を排除

HDR照明推定

LoRAファインチューニングによりLDR拡散モデルが露出ブラケットを実行可能になり、HDR形式の照明推定を実現

野外シーンへの高い汎化性能

多様な環境で説得力のある照明推定を生成し、制御されていない現実のシーンで卓越した性能を発揮

アンチエイリアシングと反復修復

カスタムプロセスでアンチエイリアシングによる滑らかなエッジと反復修復を実現し、照明方向の正確性を向上

モデル能力

画像修復

照明推定

リライティング

HDR画像生成

使用事例

コンピュータビジョン

シーン照明再構築

単一の屋内/屋外写真から完全な環境照明を再構築

3Dレンダリングに使用可能なHDR環境マップを生成

仮想オブジェクト挿入

ARアプリケーションに正確な環境照明情報を提供

仮想オブジェクトが実シーンの照明条件と自然に融合

映像制作

デジタルマットペイント

実写シーンにCG要素を整合させるための照明リファレンスを提供

ポストプロダクションにおける照明の不一致問題を軽減

🚀 DiffusionLight: Light Probes for Free by Painting a Chrome Ball

このプロジェクトは、単一の入力画像から照明を推定するシンプルで効果的な手法を提案しています。現在の手法では、限られた視野の入力を完全な環境マップに回帰するために、HDRパノラマデータセットを使ってニューラルネットワークを訓練することが多いですが、データセットの多様性とサイズが限られているため、実世界の制御されていない環境では苦労することが多いです。この問題を解決するために、数十億枚の標準画像で訓練された拡散モデルを利用して、入力画像にクロムボールをレンダリングします。

プロジェクトページ | 論文 | Github | Colab

🚀 クイックスタート

このプロジェクトは、単一の入力画像から照明を推定する手法を提案しています。現在の手法はHDRパノラマデータセットに依存しており、実世界の環境では苦労することが多いです。本手法では、拡散モデルを利用してクロムボールをレンダリングし、照明を推定します。

✨ 主な機能

単一の入力画像から照明を推定する。
拡散モデルを利用してクロムボールをレンダリングする。
LoRAを使ってLDR拡散モデルを微調整し、HDR照明推定を行う。

📦 インストール

このモデルの重みはSafetensors形式で利用可能です。ダウンロードは、Files & versionsタブで行えます。

💻 使用例

基本的な使用法

import torch
from diffusers.utils import load_image
from diffusers import StableDiffusionXLControlNetInpaintPipeline, ControlNetModel
from transformers import pipeline
from PIL import Image
import numpy as np

# Configuration
IS_UNDER_EXPOSURE = False #change this option for output underexposured ball 
if IS_UNDER_EXPOSURE:
    PROMPT = "a perfect black dark mirrored reflective chrome ball sphere"
else:
    PROMPT = "a perfect mirrored reflective chrome ball sphere"

NEGATIVE_PROMPT = "matte, diffuse, flat, dull"
IMAGE_URL = "https://raw.githubusercontent.com/DiffusionLight/DiffusionLight/main/example/bed.png"

# load pipeline
controlnet = ControlNetModel.from_pretrained("diffusers/controlnet-depth-sdxl-1.0", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetInpaintPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    controlnet=controlnet,
    torch_dtype=torch.float16,
).to("cuda")
pipe.load_lora_weights("DiffusionLight/DiffusionLight")
pipe.fuse_lora(lora_scale=0.75)
depth_estimator = pipeline(task="depth-estimation", model="Intel/dpt-large")

# prepare input image
init_image = load_image(IMAGE_URL)
depth_image = depth_estimator(images=init_image)['depth']

# create mask and depth map with mask for inpainting
def get_circle_mask(size=256):
    x = torch.linspace(-1, 1, size)
    y = torch.linspace(1, -1, size)
    y, x = torch.meshgrid(y, x)
    z = (1 - x**2 - y**2)
    mask = z >= 0
    return mask 
mask = get_circle_mask().numpy()
depth = np.asarray(depth_image).copy()
depth[384:640, 384:640] = depth[384:640, 384:640] * (1 - mask) + (mask * 255)
depth_mask = Image.fromarray(depth)
mask_image = np.zeros_like(depth)
mask_image[384:640, 384:640] = mask * 255
mask_image = Image.fromarray(mask_image)

# run the pipeline
output = pipe(
    prompt=PROMPT,
    negative_prompt=NEGATIVE_PROMPT,
    num_inference_steps=30,
    image=init_image,
    mask_image=mask_image,
    control_image=depth_mask,
    controlnet_conditioning_scale=0.5,
)

# save output
output["images"][0].save("output.png")

📚 ドキュメント

使用方法

GitHubリポジトリを参照することをおすすめします。ここには、任意の画像から照明を推定するコードが含まれています。これには、クロムボールの生成、クロムボールからの環境マップの抽出、カスタム露出バスケット法を使ったHDR環境マップの作成が含まれます。

トリガーワード

クロムボールの露出状態	プロンプト
通常露出	a perfect mirrored reflective chrome ball sphere
アンダー露出	a perfect black dark mirrored reflective chrome ball sphere

クロムボールの生成

独自のパイプラインを使用して、クロムボールに独自の機能を追加しています。これには、エッジを滑らかにするアンチエイリアシング、光の方向の正確性を向上させる反復的なインペインティング、さまざまな露出でクロムボールを生成する埋め込み補間が含まれます。したがって、GitHubリポジトリをぜひご覧ください。

🔧 技術詳細

現在の照明推定技術は、HDRパノラマデータセットに依存しており、データセットの多様性とサイズが限られているため、実世界の環境では苦労することが多いです。本研究では、拡散モデルを利用してクロムボールをレンダリングし、照明を推定します。拡散モデルを使ったクロムボールのレンダリングは簡単に見えますが、誤ったオブジェクトを挿入したり、HDR形式の画像を生成できなかったりする問題があります。本研究では、クロムボールの外観と初期拡散ノイズマップの間の関係を明らかにし、高品質なクロムボールを一貫して生成できるようにしました。さらに、LoRAを使ってLDR拡散モデル（Stable Diffusion XL）を微調整し、HDR照明推定を行えるようにしました。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

引用

@inproceedings{Phongthawee2023DiffusionLight,
    author = {Phongthawee, Pakkapon and Chinchuthakun, Worameth and Sinsunthithet, Nontaphat and Raj, Amit and Jampani, Varun and Khungurn, Pramook and Suwajanakorn, Supasorn},
    title = {DiffusionLight: Light Probes for Free by Painting a Chrome Ball},
    booktitle = {ArXiv},
    year = {2023},
}