StoryMakerオープンソースストーリー創作モデル - 多キャラクターのシーン画像の一貫性が良好で、簡単にストーリーを作り出せます

ホーム

Storymaker

RED-AIGCによって開発

StoryMakerは、マルチキャラクターシナリオにおいて顔、服装、髪型、身体的特徴の一貫性を保つパーソナライズドソリューションで、一連の画像からなるストーリーを創作するために使用されます。

テキスト生成画像英語オープンソースライセンス:Apache-2.0 #マルチキャラクター一貫性 #ストーリー画像生成 #パーソナライズドカスタマイズ

ダウンロード数 262

リリース時間 : 9/2/2024

モデル概要

StoryMakerはテキストから画像を生成するソリューションで、マルチキャラクターシナリオにおけるキャラクター特徴の一貫性維持に特化しており、ストーリー創作や多様な画像生成に適しています。

モデル特徴

マルチキャラクター一貫性

マルチキャラクターシナリオにおいて顔、服装、髪型、身体的特徴の一貫性を保持します。

ストーリー創作

一連の画像からなるストーリーを創作でき、連続したシーンの生成に適しています。

パーソナライズド適応

顔エンコーダーとアダプタ技術によりパーソナライズド画像生成を実現します。

モデル能力

テキストから画像生成

マルチキャラクター一貫性生成

ストーリーシーン生成

パーソナライズド画像生成

使用事例

ストーリー創作

サラリーマンの一日

サラリーマンの一日の生活を連続したシーン画像で生成します。

最初の3行の画像はサラリーマンの一日の異なるシーンを示しています。

映画シーン

映画『恋人たちの予感』のストーリーシーン画像を生成します。

最後の2行の画像は映画のシーンを示しています。

二人ポートレート合成

二人ポートレート

キャラクター特徴の一貫性を保ちながら二人のポートレート画像を生成します。

二人ポートレートの生成効果を示しています。

多様な応用

多様な画像生成

様々なシーンの画像を生成し、異なるアプリケーション要件に対応します。

多様なシーンの生成効果を示しています。

🚀 StoryMaker: テキストから画像生成における一貫したキャラクターの実現

StoryMakerは、複数キャラクターのシーンにおいて、顔だけでなく服装、髪型、体の一貫性を保持するパーソナライズソリューションです。一連の画像からなるストーリーを作成する可能性を実現します。

[![GitHub](https://img.shields.io/github/stars/RedAIGC/StoryMaker?style=social)](https://github.com/RedAIGC/StoryMaker)

StoryMakerによって生成された画像の可視化。最初の3行は「サラリーマン」の一日の生活に関するストーリーを、最後の2行は「サンライズ・ベフォー」という映画に関するストーリーを語っています。

✨ デモ

二人の肖像画合成

多様なアプリケーション

📦 インストール

あなたはHuggingfaceから直接モデルをダウンロードすることができます。

もしHuggingfaceにアクセスできない場合は、hf-mirrorを使用してモデルをダウンロードすることができます。

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download RED-AIGC/StoryMaker --local-dir checkpoints --local-dir-use-symlinks False

顔エンコーダについては、デフォルトのリンクが無効なため、このURLから手動でmodels/buffalo_lにダウンロードする必要があります。すべてのモデルを準備した後、フォルダ構造は次のようになるはずです。

  .
  ├── models
  ├── checkpoints/mask.bin
  ├── pipeline_sdxl_storymaker.py
  └── README.md

💻 使用例

基本的な使用法

# !pip install opencv-python transformers accelerate insightface
import diffusers

import cv2
import torch
import numpy as np
from PIL import Image

from insightface.app import FaceAnalysis
from pipeline_sdxl_storymaker import StableDiffusionXLStoryMakerPipeline

# prepare 'buffalo_l' under ./models
app = FaceAnalysis(name='buffalo_l', root='./', providers=['CUDAExecutionProvider', 'CPUExecutionProvider'])
app.prepare(ctx_id=0, det_size=(640, 640))

# prepare models under ./checkpoints
face_adapter = f'./checkpoints/mask.bin'
image_encoder_path = 'laion/CLIP-ViT-H-14-laion2B-s32B-b79K'  #  from https://huggingface.co/laion/CLIP-ViT-H-14-laion2B-s32B-b79K

base_model = 'huaquan/YamerMIX_v11'  # from https://huggingface.co/huaquan/YamerMIX_v11
pipe = StableDiffusionXLStoryMakerPipeline.from_pretrained(
    base_model,
    torch_dtype=torch.float16
)
pipe.cuda()

# load adapter
pipe.load_storymaker_adapter(image_encoder_path, face_adapter, scale=0.8, lora_scale=0.8)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

高度な使用法

# load an image and mask
face_image = Image.open("examples/ldh.png").convert('RGB')
mask_image = Image.open("examples/ldh_mask.png").convert('RGB')
    
face_info = app.get(cv2.cvtColor(np.array(image), cv2.COLOR_RGB2BGR))
face_info = sorted(face_info, key=lambda x:(x['bbox'][2]-x['bbox'][0])*(x['bbox'][3]-x['bbox'][1]))[-1] # only use the maximum face

prompt = "a person is taking a selfie, the person is wearing a red hat, and a volcano is in the distance"
n_prompt = "bad quality, NSFW, low quality, ugly, disfigured, deformed"

generator = torch.Generator(device='cuda').manual_seed(666)
for i in range(4):
    output = pipe(
        image=image, mask_image=mask_image, face_info=face_info,
        prompt=prompt,
        negative_prompt=n_prompt,
        ip_adapter_scale=0.8, lora_scale=0.8,
        num_inference_steps=25,
        guidance_scale=7.5,
        height=1280, width=960,
        generator=generator,
    ).images[0]
    output.save(f'examples/results/ldh666_new_{i}.jpg')