SD3-Controlnet-Inpaintingオープンソース画像修復モデル - 高解像度画像修復と文字生成をサポート

ホーム

SD3 Controlnet Inpainting

alimama-creativeによって開発

SD3-mediumを微調整したコントロールネット修復モデルで、高解像度画像修復とテキスト生成をサポート

画像生成英語オープンソースライセンス:その他 #高解像度画像修復 #テキストコンテンツ生成 #ポートレート審美最適化

ダウンロード数 209

リリース時間 : 7/30/2024

モデル概要

このモデルはSD3-mediumを微調整したコントロールネット修復モデルで、画像修復タスクに特化しており、非修復領域の完全性を保持しつつテキストコンテンツ生成をサポートします。

モデル特徴

高解像度修復

SD3の16チャンネルVAEと1024高解像度生成能力を活用し、非修復領域の完全性を完璧に保持

テキスト生成

修復を通じてテキストコンテンツを生成可能で、これは画像修復モデルでは珍しい機能

ポートレート審美表現

人物生成において卓越した審美表現を発揮

SDXL修復モデルとの比較優位性

SDXL修復モデルと比較し、ディテール保持と生成品質において明らかな向上が見られる

モデル能力

画像修復

高解像度画像生成

テキストコンテンツ生成

人物生成

使用事例

画像編集

物体置換

画像中の特定物体を他の物体に置換

例では公園のベンチ上の虎を子犬に置換した効果を展示

服装デザイン

人物の服装スタイルを変更

例では女性のワンピーススタイルを変更した効果を展示

ブランド要素追加

画像にブランドロゴやテキストを追加

例では帽子とバケツにブランドテキストを追加した効果を展示

インテリアデザイン

家具配置

室内の家具配置を変更

例では寝室の壁にエアコンを追加した効果を展示

🚀 SD3 Controlnet Inpainting

このモデルはテキストから画像を生成するモデルで、SD3ベースのControlnet Inpainting機能を備えています。Diffusersライブラリと統合され、便利に使用できます。

🚀 クイックスタート

このモデルはDiffusersに統合されており、便利に使用することができます。

✨ 主な機能

画像生成例

SD3

白いジャケット、黒い帽子、黒いズボンを着た女性が畑に立っている、帽子にはSD3と書かれている

bucket_alibaba

白い靴を履き、「alibaba」と書かれた白いバケツを持った人

SD3 Controlnet Inpaintingの特長

sd3 - mediumをベースに微調整されたControlnet Inpaintingモデルで、以下の利点があります。

SD3の16チャンネルVAEと1024の高解像度生成能力を活用し、非インペイント領域（テキストを含む）の完全性を効果的に維持します。
インペイントによるテキスト生成が可能です。
肖像画生成において優れた美学的性能を示します。

SDXL - Inpaintingとの比較。左から右へ：入力画像、マスク画像、SDXLインペイント、当モデル。

公園のベンチに座っている虎

公園のベンチに座っている犬

青とピンクの花柄のドレスを着た若い女性

白いジャケット、黒い帽子、黒いズボンを着た女性が畑に立っている、帽子にはSD3と書かれている

寝室の壁に取り付けられたエアコン

📦 インストール

ソースからインストールして実行します。

pip uninstall diffusers
pip install git+https://github.com/huggingface/diffusers

💻 使用例

基本的な使用法

import torch
from diffusers.utils import load_image, check_min_version
from diffusers.pipelines import StableDiffusion3ControlNetInpaintingPipeline
from diffusers.models.controlnet_sd3 import SD3ControlNetModel

controlnet = SD3ControlNetModel.from_pretrained(
    "alimama-creative/SD3-Controlnet-Inpainting", use_safetensors=True, extra_conditioning_channels=1
)
pipe = StableDiffusion3ControlNetInpaintingPipeline.from_pretrained(
    "stabilityai/stable-diffusion-3-medium-diffusers",
    controlnet=controlnet,
    torch_dtype=torch.float16,
)
pipe.text_encoder.to(torch.float16)
pipe.controlnet.to(torch.float16)
pipe.to("cuda")

image = load_image(
    "https://huggingface.co/alimama-creative/SD3-Controlnet-Inpainting/resolve/main/images/dog.png"
)
mask = load_image(
    "https://huggingface.co/alimama-creative/SD3-Controlnet-Inpainting/resolve/main/images/dog_mask.png"
)
width = 1024
height = 1024
prompt = "A cat is sitting next to a puppy."
generator = torch.Generator(device="cuda").manual_seed(24)
res_image = pipe(
    negative_prompt="deformed, distorted, disfigured, poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, mutated hands and fingers, disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, NSFW",
    prompt=prompt,
    height=height,
    width=width,
    control_image=image,
    control_mask=mask,
    num_inference_steps=28,
    generator=generator,
    controlnet_conditioning_scale=0.95,
    guidance_scale=7,
).images[0]
res_image.save(f"sd3.png")