SD3.5 - Large - IP - Adapterオープンソース画像生成モデル - 画像をテキストプロンプトと組み合わせて新しい画像を創作する

ホーム

SD3.5 Large IP Adapter

InstantXによって開発

これはSD3.5-Largeモデルを基にしたIPアダプターで、画像を入力条件としてテキストプロンプトと共に新しい画像を生成できます。

テキスト生成画像英語オープンソースライセンス:その他 #画像誘導生成 #マルチモーダル融合 #高解像度画像生成

ダウンロード数 1,474

リリース時間 : 11/7/2024

モデル概要

このモデルはIPアダプターで、画像をテキストのように入力条件として使用し、テキストから画像を生成するタスクに利用できます。

モデル特徴

画像条件入力

参照画像を入力条件として使用し、テキストプロンプトと共に生成結果に影響を与えることができます

マルチブロック適応

すべての38ブロックに新しい層が追加され、モデルの画像条件理解能力が強化されています

高性能画像エンコーディング

google/siglip-so400m-patch14-384を使用して画像をエンコードし、TimeResamplerで投影します

64画像トークン

64個の画像トークン数を設定し、生成品質と計算効率のバランスを取っています

モデル能力

テキストから画像生成

画像条件生成

高解像度画像生成

使用事例

クリエイティブデザイン

スタイル転送

参照画像のスタイルに基づいて新しい画像を生成

参照画像のスタイルと一致する新しいコンテンツを生成

コンセプトデザイン

テキスト記述と参照画像を組み合わせてデザインコンセプトを生成

テキストと画像の特徴を融合したクリエイティブデザイン

コンテンツ制作

イラスト生成

スケッチや参照画像に基づいて完成したイラストを生成

参照画像の特徴を保持した高品質なイラスト

🚀 SD3.5-Large-IP-Adapter

このリポジトリには、InstantX Teamの研究者によって公開されたSD3.5-Largeモデル用のIP-Adapterが含まれています。このモデルでは、画像がテキストのように機能するため、他のテキストに反応しない場合や干渉する場合がありますが、是非このモデルを楽しんでいただき、Twitterで皆さんの創作作品を共有していただけると幸いです。

🚀 クイックスタート

このIP-Adapterを使用することで、SD3.5-Largeモデルをより柔軟に利用することができます。以下のセクションで詳細をご紹介します。

✨ 主な機能

画像エンコーダの高性能化：google/siglip-so400m-patch14-384を使用して画像をエンコードすることで、高品質な画像生成が可能です。
新しいレイヤーの追加：すべての38ブロックに新しいレイヤーを追加することで、モデルの表現力を向上させています。

📦 インストール

コードはまだdiffusersに統合されていないため、現時点ではローカルファイルを使用してください。

💻 使用例

基本的な使用法

import torch
from PIL import Image

from models.transformer_sd3 import SD3Transformer2DModel
from pipeline_stable_diffusion_3_ipa import StableDiffusion3Pipeline

model_path = 'stabilityai/stable-diffusion-3.5-large'
ip_adapter_path = './ip-adapter.bin'
image_encoder_path = "google/siglip-so400m-patch14-384"

transformer = SD3Transformer2DModel.from_pretrained(
    model_path, subfolder="transformer", torch_dtype=torch.bfloat16
)

pipe = StableDiffusion3Pipeline.from_pretrained(
    model_path, transformer=transformer, torch_dtype=torch.bfloat16
).to("cuda")

pipe.init_ipadapter(
    ip_adapter_path=ip_adapter_path, 
    image_encoder_path=image_encoder_path, 
    nb_token=64, 
)

ref_img = Image.open('./assets/1.jpg').convert('RGB')

# please note that SD3.5 Large is sensitive to highres generation like 1536x1536
image = pipe(
    width=1024,
    height=1024,
    prompt='a cat',
    negative_prompt="lowres, low quality, worst quality",
    num_inference_steps=24, 
    guidance_scale=5.0,
    generator=torch.Generator("cuda").manual_seed(42),
    clip_image=ref_img,
    ipadapter_scale=0.5,
).images[0]
image.save('./result.jpg')

📚 ドキュメント

モデルカード

これは通常のIP-Adapterで、すべての38ブロックに新しいレイヤーが追加されています。画像エンコードにはgoogle/siglip-so400m-patch14-384を使用し、TimeResamplerを採用して投影しています。画像トークン数は64に設定されています。

展示例

Community ComfyUIサポート

詳細はComfyUI-InstantX-IPAdapter-SD3を参照してください。

📄 ライセンス

このモデルはstabilityai-ai-communityの下で公開されています。すべての著作権は保持されています。

謝辞

このプロジェクトはHuggingFaceとfal.aiによって支援されています。また、ComfyUIノードをサポートしてくれたSlickytailに感謝します。

引用

もしこのプロジェクトがあなたの研究に役立った場合、以下のように引用してください。

@misc{sd35-large-ipa,
    author = {InstantX Team},
    title = {InstantX SD3.5-Large IP-Adapter Page},
    year = {2024},
}

Property	Details
Model Type	IP-Adapter for SD3.5-Large
Training Data	Not specified
Base Model	stabilityai/stable-diffusion-3.5-large
Library Name	diffusers
Pipeline Tag	text-to-image
Tags	Text-to-Image, IP-Adapter, StableDiffusion3Pipeline, image-generation, Stable Diffusion