Instruct - CLIP Open-Source Model - Automatically Optimize Data, Significantly Improve the Effect of Instruction-Guided Image Editing

Instruct CLIP

Developed by SherryXTChen

InstructCLIP is a model that automatically optimizes data through contrastive learning to enhance instruction-guided image editing.

Text-to-Image EnglishOpen Source License:Apache-2.0 #Instruction-guided image editing #Contrastive learning optimization #Automatic instruction generation

Downloads 74

Release Time : 3/25/2025

Model Overview

This model, based on contrastive learning techniques, can automatically optimize data to improve instruction-guided image editing, suitable for image-to-image transformation tasks.

Model Features

Automatic Data Optimization

Automatically optimizes data through contrastive learning techniques to enhance instruction-guided image editing.

Instruction-Guided Editing

Supports image editing guided by natural language instructions for more precise image transformation.

Efficient Image Processing

Hybrid architecture based on LatentDiffusion and DINOv2 enables efficient image processing capabilities.

Model Capabilities

Image editing

Instruction-guided transformation

Image-to-image transformation

Use Cases

Image editing

3D Sculpture Transformation

Convert ordinary images into 3D sculpture effects.

Generate images with a 3D sculpture style.

Style Transformation

Transform images into specific styles based on instructions.

Generate images that match the instructed style.

🚀 InstructCLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning (CVPR 2025)

This project presents InstructCLIP, a model that enhances instruction - guided image editing through automated data refinement using contrastive learning, offering advanced capabilities in image processing.

🚀 Quick Start

This model has been pushed to the Hub using the PytorchModelHubMixin integration. The model is based on the paper Instruct - CLIP: Improving Instruction - Guided Image Editing with Automated Data Refinement Using Contrastive Learning.

Arxiv | [Image Editing Model](https://huggingface.co/SherryXTChen/InstructCLIP - InstructPix2Pix) | [Data Refinement Model](https://huggingface.co/SherryXTChen/Instruct - CLIP) | [Data](https://huggingface.co/datasets/SherryXTChen/InstructCLIP - InstructPix2Pix - Data)

✨ Features

📦 Installation

pip install -r requirements.txt

💻 Usage Examples

Basic Usage

from PIL import Image
import torch
from torchvision import transforms

from model import InstructCLIP
from utils import get_sd_components, normalize

parser = argparse.ArgumentParser(description="Simple example of estimating edit instruction from image pair")
parser.add_argument(
    "--pretrained_instructclip_name_or_path",
    type=str,
    default="SherryXTChen/Instruct - CLIP",
    help=(
        "instructclip pretrained checkpoints"
    ),
)
parser.add_argument(
    "--pretrained_model_name_or_path",
    type=str,
    default="runwayml/stable - diffusion - v1 - 5",
    help=(
        "sd pretrained checkpoints"
    ),
)
parser.add_argument(
    "--input_path",
    type=str,
    default="assets/1_input.jpg",
    help=(
        "Input image path"
    )
)
parser.add_argument(
    "--output_path",
    type=str,
    default="assets/1_output.jpg",
    help=(
        "Output image path"
    )
)
args = parser.parse_args()
device = "cuda"
    
# load model for edit instruction estimation
model = InstructCLIP.from_pretrained("SherryXTChen/Instruct - CLIP")
model = model.to(device).eval()

# load model to preprocess/encode image to latent space
tokenizer, _, vae, _, _ = get_sd_components(args, device, torch.float32)

# prepare image input
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.5], std=[0.5]),
])
image_list = [args.input_path, args.output_path]
image_list = [
    transform(Image.open(f).resize((512, 512))).unsqueeze(0).to(device) 
    for f in image_list
]

with torch.no_grad():
    image_list = [vae.encode(x).latent_dist.sample() * vae.config.scaling_factor for x in image_list]
    
    # get image feature
    zero_timesteps = torch.zeros_like(torch.tensor([0])).to(device) 
    img_feat = model.get_image_features(
        inp=image_list[0], out=image_list[1], inp_t=zero_timesteps, out_t=zero_timesteps)
    img_feat = normalize(img_feat)
    
    # get edit instruction
    pred_instruct_input_ids = model.text_decoder.infer(img_feat[:1])[0]
    pred_instruct = tokenizer.decode(pred_instruct_input_ids, skip_special_tokens=True)
    print(pred_instruct)  # as a 3 d sculpture

📄 License

@misc{chen2025instructclipimprovinginstructionguidedimage,
      title={Instruct - CLIP: Improving Instruction - Guided Image Editing with Automated Data Refinement Using Contrastive Learning}, 
      author={Sherry X. Chen and Misha Sra and Pradeep Sen},
      year={2025},
      eprint={2503.18406},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.18406}, 
}

📋 Information Table

Property	Details
Base Model	SherryXTChen/LatentDiffusionDINOv2
Datasets	timbrooks/instructpix2pix - clip - filtered, SherryXTChen/InstructCLIP - InstructPix2Pix - Data
Language	en
License	apache - 2.0
Pipeline Tag	image - to - image
Library Name	diffusers
Tags	model_hub_mixin, pytorch_model_hub_mixin

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご