InstructCVオープンソースのテキストから画像へのモデル - 自然言語命令をサポートして多様なビジュアルタスクを完了

ホーム

Instructcv

alaa-labによって開発

InstructCVは指示チューニングベースのテキストから画像への拡散モデルで、自然言語指示を通じて様々なコンピュータビジョンタスクを実行できます。

画像生成オープンソースライセンス:MIT #画像指示編集 #ビジュアルジェネラリストモデル #テキスト誘導画像処理

ダウンロード数 20

リリース時間 : 7/2/2023

モデル概要

InstructCVはビジュアルジェネラリストモデルで、指示チューニングされたテキストから画像への拡散技術により、様々なコンピュータビジョンタスクの自然言語指示を理解し実行できます。

モデル特徴

指示駆動型ビジュアル処理

自然言語指示を通じて様々なコンピュータビジョンタスクを実行可能

多機能ビジュアルジェネラリスト

画像検出、編集など様々なタイプのビジュアルタスクを処理可能

拡散モデルベース

先進的な拡散モデル技術を利用した高品質な画像処理を実現

モデル能力

画像検出

画像編集

指示ベース画像変換

ビジュアルタスク実行

使用事例

コンピュータビジョン

人物検出

自然言語指示により画像中の人物を検出

検出結果を含む画像を生成

画像編集

テキスト指示に基づき画像を編集・修正

編集後の画像を生成

🚀 InstructCV: 命令調整型テキストから画像への拡散モデルによるビジョン汎用モデル

InstructCVは、命令調整型のテキストから画像への拡散モデルで、様々なビジョンタスクを汎用的に扱うことができます。

GitHub: https://github.com/AlaaLab/InstructCV

🚀 クイックスタート

InstructCV を使用するには、現時点では main を使用して diffusers をインストールします。このパイプラインは次回のリリースで利用可能になります。

pip install diffusers accelerate safetensors transformers

💻 使用例

基本的な使用法

import PIL
import requests
import torch
from diffusers import StableDiffusionInstructPix2PixPipeline, EulerAncestralDiscreteScheduler

model_id = "yulu2/InstructCV"
pipe = StableDiffusionInstructPix2PixPipeline.from_pretrained(model_id, torch_dtype=torch.float16, safety_checker=None, variant="ema")
pipe.to("cuda")
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)

url = "put your url here"

def download_image(url):
    image = PIL.Image.open(requests.get(url, stream=True).raw)
    image = PIL.ImageOps.exif_transpose(image)
    image = image.convert("RGB")
    return image

image         = download_image(URL)
seed          = random.randint(0, 100000)
generator     = torch.manual_seed(seed)
width, height = image.size
factor        = 512 / max(width, height)
factor        = math.ceil(min(width, height) * factor / 64) * 64 / min(width, height)
width         = int((width * factor) // 64) * 64
height        = int((height * factor) // 64) * 64
image         = ImageOps.fit(image, (width, height), method=Image.Resampling.LANCZOS)

prompt        = "Detect the person."
images        = pipe(prompt, image=image, num_inference_steps=100, generator=generator).images[0]
images[0]