🚀 SD3.5-Large-IP-Adapter
本仓库包含一个适用于SD3.5-Large模型的IP-Adapter,该模型由InstantX团队的研究人员发布。在这个模型中,图像的作用类似于文本,它可能不会对其他文本做出响应或产生干扰。我们衷心希望您能喜欢这个模型,享受使用它的乐趣,并在Twitter上与我们分享您的创意作品。
✨ 主要特性
这是一个常规的IP-Adapter,在所有38个块中都添加了新的层。我们使用google/siglip-so400m-patch14-384对图像进行编码,因为它具有卓越的性能,并采用了TimeResampler进行投影。图像令牌数量设置为64。
📦 安装指南
代码尚未集成到diffusers
库中,目前请使用我们的本地文件。
💻 使用示例
基础用法
import torch
from PIL import Image
from models.transformer_sd3 import SD3Transformer2DModel
from pipeline_stable_diffusion_3_ipa import StableDiffusion3Pipeline
model_path = 'stabilityai/stable-diffusion-3.5-large'
ip_adapter_path = './ip-adapter.bin'
image_encoder_path = "google/siglip-so400m-patch14-384"
transformer = SD3Transformer2DModel.from_pretrained(
model_path, subfolder="transformer", torch_dtype=torch.bfloat16
)
pipe = StableDiffusion3Pipeline.from_pretrained(
model_path, transformer=transformer, torch_dtype=torch.bfloat16
).to("cuda")
pipe.init_ipadapter(
ip_adapter_path=ip_adapter_path,
image_encoder_path=image_encoder_path,
nb_token=64,
)
ref_img = Image.open('./assets/1.jpg').convert('RGB')
image = pipe(
width=1024,
height=1024,
prompt='a cat',
negative_prompt="lowres, low quality, worst quality",
num_inference_steps=24,
guidance_scale=5.0,
generator=torch.Generator("cuda").manual_seed(42),
clip_image=ref_img,
ipadapter_scale=0.5,
).images[0]
image.save('./result.jpg')
📚 详细文档
模型展示
社区ComfyUI支持
请参考 Slickytail/ComfyUI-InstantX-IPAdapter-SD3。
📄 许可证
该模型遵循 stabilityai-ai-community 许可证发布,保留所有版权。
👏 致谢
本项目由 HuggingFace 和 fal.ai 赞助。感谢 Slickytail 对ComfyUI节点的支持。
📖 引用
如果您在研究中发现本项目有用,请通过以下方式引用我们:
@misc{sd35-large-ipa,
author = {InstantX Team},
title = {InstantX SD3.5-Large IP-Adapter Page},
year = {2024},
}