🚀 InstructCV:指令调优的文本到图像扩散模型,成为视觉多面手
InstructCV 是一种经过指令调优的文本到图像扩散模型,可作为视觉通用模型,在图像到图像等任务中表现出色,利用相关数据集进行训练,具有广泛的应用前景。
🚀 快速开始
要使用 InstructCV
,目前需要使用 main
版本安装 diffusers
。该管道将在下一版本中正式可用。
📦 安装指南
pip install diffusers accelerate safetensors transformers
💻 使用示例
基础用法
import PIL
import requests
import torch
from diffusers import StableDiffusionInstructPix2PixPipeline, EulerAncestralDiscreteScheduler
model_id = "yulu2/InstructCV"
pipe = StableDiffusionInstructPix2PixPipeline.from_pretrained(model_id, torch_dtype=torch.float16, safety_checker=None, variant="ema")
pipe.to("cuda")
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
url = "put your url here"
def download_image(url):
image = PIL.Image.open(requests.get(url, stream=True).raw)
image = PIL.ImageOps.exif_transpose(image)
image = image.convert("RGB")
return image
image = download_image(URL)
seed = random.randint(0, 100000)
generator = torch.manual_seed(seed)
width, height = image.size
factor = 512 / max(width, height)
factor = math.ceil(min(width, height) * factor / 64) * 64 / min(width, height)
width = int((width * factor) // 64) * 64
height = int((height * factor) // 64) * 64
image = ImageOps.fit(image, (width, height), method=Image.Resampling.LANCZOS)
prompt = "Detect the person."
images = pipe(prompt, image=image, num_inference_steps=100, generator=generator).images[0]
images[0]
📄 许可证
本项目采用 MIT 许可证。
相关链接
- GitHub: https://github.com/AlaaLab/InstructCV
- 项目图片
数据集
本项目使用了 yulu2/InstructCV-Demo-Data
数据集。
属性 |
详情 |
模型类型 |
指令调优的文本到图像扩散模型 |
训练数据 |
yulu2/InstructCV-Demo-Data |