EcomXL_controlnet_inpaintオープンソース文章生成画像モデル - 電子商取引シーンの最適化、前景の外溢を防止

ホーム

Ecomxl Controlnet Inpaint

alimama-creativeによって開発

ECサイトシナリオに最適化されたテキストから画像への拡散モデルで、Stable Diffusion XLを基に開発され、インスタンスマスクによる微調整で前景のはみ出しを防止します。

画像生成英語オープンソースライセンス:Apache-2.0 #ECサイト画像修復 #インスタンスマスク制御 #SDXL最適化

ダウンロード数 245

リリース時間 : 5/7/2024

モデル概要

EcomXLはECサイトシナリオに特化して最適化された一連のテキストから画像への拡散モデルを含み、修復制御ネットワークを通じて拡散モデルを調整し、特にECサイトのニーズに合わせて訓練され、前景のはみ出しを効果的に防止します。

モデル特徴

ECサイトシナリオ最適化

ECサイトのニーズに合わせて設計され、商品展示と修復効果を最適化しました。

インスタンスマスク微調整

インスタンスマスクによる微調整で、前景のはみ出しを効果的に防止し、修復精度を向上させます。

高解像度サポート

1024x1024の高解像度画像生成をサポートし、ECサイトの高精細展示ニーズに適しています。

モデル能力

テキストから画像生成

画像修復

ECサイト商品展示最適化

使用事例

ECサイト

商品展示修復

商品画像の欠陥や隠れ部分を修復し、展示効果を向上させます。

修復後の画像は商品の詳細を保持し、明らかなはみ出しや歪みがありません。

背景置換

商品の背景を置換し、異なる展示シナリオのニーズに対応します。

背景の置換が自然で、商品の輪郭がクリアでギザギザがありません。

🚀 EcomXL Inpaint ControlNet

EcomXLは、Stable Diffusion XLをベースに開発された、電子商取引シナリオ向けに最適化された一連のテキストから画像への拡散モデルを含んでいます。電子商取引シナリオに対応するため、拡散モデルを制御するInpaint ControlNetをトレーニングしました。一般的なシナリオで使用されるインペインコントロールネットとは異なり、このモデルは前景のアウトペイントを防ぐためにインスタンスマスクで微調整されています。

✨ 主な機能

電子商取引シナリオ向けに最適化されたテキストから画像への拡散モデルを提供します。
Inpaint ControlNetを使用して拡散モデルを制御し、前景のアウトペイントを防ぎます。

💻 使用例

基本的な使用法

from diffusers import (
    ControlNetModel,
    StableDiffusionXLControlNetPipeline,
    DDPMScheduler
)
from diffusers.utils import load_image
import torch
from PIL import Image
import numpy as np

def make_inpaint_condition(init_image, mask_image):
    init_image = np.array(init_image.convert("RGB")).astype(np.float32) / 255.0
    mask_image = np.array(mask_image.convert("L")).astype(np.float32) / 255.0
    assert init_image.shape[0:1] == mask_image.shape[0:1], "image and image_mask must have the same image size"
    init_image[mask_image > 0.5] = -1.0  # set as masked pixel
    init_image = np.expand_dims(init_image, 0).transpose(0, 3, 1, 2)
    init_image = torch.from_numpy(init_image)
    return init_image

def add_fg(full_img, fg_img, mask_img):
    full_img = np.array(full_img).astype(np.float32)
    fg_img = np.array(fg_img).astype(np.float32)
    mask_img = np.array(mask_img).astype(np.float32) / 255.
    full_img = full_img * mask_img + fg_img * (1-mask_img)
    return Image.fromarray(np.clip(full_img, 0, 255).astype(np.uint8))

controlnet = ControlNetModel.from_pretrained(
    "alimama-creative/EcomXL_controlnet_inpaint",
    use_safetensors=True,
)

pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", 
    controlnet=controlnet, 
)
pipe.to("cuda")
pipe.scheduler = DDPMScheduler.from_config(pipe.scheduler.config)

image = load_image(
    "https://huggingface.co/alimama-creative/EcomXL_controlnet_inpaint/resolve/main/images/inp_0.png"
)
mask = load_image(
    "https://huggingface.co/alimama-creative/EcomXL_controlnet_inpaint/resolve/main/images/inp_1.png"
)
mask = Image.fromarray(255 - np.array(mask))

control_image = make_inpaint_condition(image, mask)

prompt="a product on the table"

generator = torch.Generator(device="cuda").manual_seed(1234)

res_image = pipe(
    prompt,
    image=control_image,
    num_inference_steps=25,
    guidance_scale=7,
    width=1024,
    height=1024,
    controlnet_conditioning_scale=0.5,
    generator=generator,
).images[0]

res_image = add_fg(res_image, image, mask)
res_image.save(f'res.png')