🚀 SD3.5-Large-IP-Adapter
本倉庫包含一個適用於SD3.5-Large模型的IP-Adapter,該模型由InstantX團隊的研究人員發佈。在這個模型中,圖像的作用類似於文本,它可能不會對其他文本做出響應或產生干擾。我們衷心希望您能喜歡這個模型,享受使用它的樂趣,並在Twitter上與我們分享您的創意作品。
✨ 主要特性
這是一個常規的IP-Adapter,在所有38個塊中都添加了新的層。我們使用google/siglip-so400m-patch14-384對圖像進行編碼,因為它具有卓越的性能,並採用了TimeResampler進行投影。圖像令牌數量設置為64。
📦 安裝指南
代碼尚未集成到diffusers
庫中,目前請使用我們的本地文件。
💻 使用示例
基礎用法
import torch
from PIL import Image
from models.transformer_sd3 import SD3Transformer2DModel
from pipeline_stable_diffusion_3_ipa import StableDiffusion3Pipeline
model_path = 'stabilityai/stable-diffusion-3.5-large'
ip_adapter_path = './ip-adapter.bin'
image_encoder_path = "google/siglip-so400m-patch14-384"
transformer = SD3Transformer2DModel.from_pretrained(
model_path, subfolder="transformer", torch_dtype=torch.bfloat16
)
pipe = StableDiffusion3Pipeline.from_pretrained(
model_path, transformer=transformer, torch_dtype=torch.bfloat16
).to("cuda")
pipe.init_ipadapter(
ip_adapter_path=ip_adapter_path,
image_encoder_path=image_encoder_path,
nb_token=64,
)
ref_img = Image.open('./assets/1.jpg').convert('RGB')
image = pipe(
width=1024,
height=1024,
prompt='a cat',
negative_prompt="lowres, low quality, worst quality",
num_inference_steps=24,
guidance_scale=5.0,
generator=torch.Generator("cuda").manual_seed(42),
clip_image=ref_img,
ipadapter_scale=0.5,
).images[0]
image.save('./result.jpg')
📚 詳細文檔
模型展示
社區ComfyUI支持
請參考 Slickytail/ComfyUI-InstantX-IPAdapter-SD3。
📄 許可證
該模型遵循 stabilityai-ai-community 許可證發佈,保留所有版權。
👏 致謝
本項目由 HuggingFace 和 fal.ai 贊助。感謝 Slickytail 對ComfyUI節點的支持。
📖 引用
如果您在研究中發現本項目有用,請通過以下方式引用我們:
@misc{sd35-large-ipa,
author = {InstantX Team},
title = {InstantX SD3.5-Large IP-Adapter Page},
year = {2024},
}