🚀 REALEDIT:用于图像变换的大规模实证数据集Reddit编辑
REALEDIT是一个基于Reddit编辑的大规模实证图像变换数据集,为图像转换相关的研究和应用提供了丰富的数据支持。项目提供了两种推理方式,方便用户根据自身需求进行图像编辑。
🚀 快速开始
有两种运行推理的方式:通过🧨Diffusers或原始的InstructPix2Pix管道。
✨ 主要特性
- 提供基于Diffusers和InstructPix2Pix两种推理方式。
- 利用Reddit编辑数据构建大规模图像变换数据集。
📦 安装指南
方式一:使用🧨Diffusers
安装必要的库:
pip install torch==2.7.0 diffusers==0.33.1 transformers==4.51.3 accelerate==1.6.0 pillow==11.2.1 requests==2.32.3
方式二:通过InstructPix2Pix管道
克隆仓库并设置目录结构:
git clone https://github.com/timothybrooks/instruct-pix2pix.git
cd instruct-pix2pix
mkdir checkpoints
将微调后的检查点下载到checkpoints
目录:
cd checkpoints
返回仓库根目录,并按照InstructPix2Pix安装指南设置环境。
💻 使用示例
基础用法
方式一:使用🧨Diffusers
import torch
import requests
import PIL
from diffusers import StableDiffusionInstructPix2PixPipeline, EulerAncestralDiscreteScheduler
model_id = "peter-sushko/RealEdit"
pipe = StableDiffusionInstructPix2PixPipeline.from_pretrained(
model_id,
torch_dtype=torch.float16,
safety_checker=None
)
pipe.to("cuda")
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
url = "https://raw.githubusercontent.com/AyanaBharadwaj/RealEdit/refs/heads/main/example_imgs/simba.jpg"
def download_image(url):
image = PIL.Image.open(requests.get(url, stream=True).raw)
image = PIL.ImageOps.exif_transpose(image)
image = image.convert("RGB")
return image
image = download_image(url)
prompt = "give him a crown"
result = pipe(prompt, image=image, num_inference_steps=50, image_guidance_scale=2).images[0]
result.save("output.png")
方式二:通过InstructPix2Pix管道
编辑单张图像:
python edit_cli.py \
--input [YOUR_IMG_PATH] \
--output imgs/output.jpg \
--edit "YOUR EDIT INSTRUCTION" \
--ckpt checkpoints/realedit_model.ckpt
📚 详细文档
- 项目页面:https://peter-sushko.github.io/RealEdit/
- 数据:https://huggingface.co/datasets/peter-sushko/RealEdit
📄 许可证
本项目采用CC(Creative Commons)许可证。
📦 数据集信息
属性 |
详情 |
模型类型 |
image-to-image |
训练数据 |
peter-sushko/RealEdit |
📖 引用
如果您发现此检查点有帮助,请引用:
@misc{sushko2025realeditredditeditslargescale,
title={REALEDIT: Reddit Edits As a Large-scale Empirical Dataset for Image Transformations},
author={Peter Sushko and Ayana Bharadwaj and Zhi Yang Lim and Vasily Ilin and Ben Caffee and Dongping Chen and Mohammadreza Salehi and Cheng-Yu Hsieh and Ranjay Krishna},
year={2025},
eprint={2502.03629},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.03629},
}