InstantIDオープンソースモデル - 単一画像で身份保持生成を実現、多様な下流タスクをサポート！

ホーム

Instantid

InstantXによって開発

InstantIDはチューニング不要の先進的な手法で、単一画像のみでID保持生成を実現し、複数の下流タスクをサポートします。

画像生成英語オープンソースライセンス:Apache-2.0 #ゼロショットID保持 #単一画像生成 #顔埋め込み

ダウンロード数 86.99k

リリース時間 : 1/19/2024

モデル概要

InstantIDは革新的なID保持生成モデルで、単一の参照画像からID特徴を保持した新しい画像を生成でき、様々な画像生成タスクに適用可能です。

モデル特徴

チューニング不要

単一画像のみでID保持生成が可能で、追加のトレーニングやチューニングが不要

ID保持

参照画像のID特徴を正確に捕捉・保持できる

マルチタスク対応

スタイル変換、年齢変化など複数の画像生成下流タスクをサポート

高速生成

数秒で高品質な画像生成が可能

モデル能力

ID保持画像生成

スタイル変換

年齢変化シミュレーション

表情変化

アートスタイル変換

使用事例

クリエイティブデザイン

アートポートレート作成

普通の写真を様々なアートスタイルのポートレートに変換

アートスタイルを持ちながら人物のIDを保持したポートレートを生成

エンターテインメントアプリ

年齢変化シミュレーション

人物の異なる年齢段階の外見をシミュレート

リアルで信頼性のある異なる年齢層のポートレートを生成

🚀 InstantIDモデルカード

InstantIDは、単一画像のみでID保持生成を実現する最新のチューニング不要手法で、さまざまな下流タスクをサポートします。

プロジェクトページ | 論文 | コード | 🤗 Gradioデモ

🚀 クイックスタート

モデルのダウンロード

このリポジトリから直接モデルをダウンロードすることができます。また、Pythonスクリプトを使用して以下のようにダウンロードすることもできます。

from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="InstantX/InstantID", filename="ControlNetModel/config.json", local_dir="./checkpoints")
hf_hub_download(repo_id="InstantX/InstantID", filename="ControlNetModel/diffusion_pytorch_model.safetensors", local_dir="./checkpoints")
hf_hub_download(repo_id="InstantX/InstantID", filename="ip-adapter.bin", local_dir="./checkpoints")

顔エンコーダについては、このURLから手動でmodels/antelopev2にダウンロードする必要があります。

コードの実行

# !pip install opencv-python transformers accelerate insightface
import diffusers
from diffusers.utils import load_image
from diffusers.models import ControlNetModel

import cv2
import torch
import numpy as np
from PIL import Image

from insightface.app import FaceAnalysis
from pipeline_stable_diffusion_xl_instantid import StableDiffusionXLInstantIDPipeline, draw_kps

# prepare 'antelopev2' under ./models
app = FaceAnalysis(name='antelopev2', root='./', providers=['CUDAExecutionProvider', 'CPUExecutionProvider'])
app.prepare(ctx_id=0, det_size=(640, 640))

# prepare models under ./checkpoints
face_adapter = f'./checkpoints/ip-adapter.bin'
controlnet_path = f'./checkpoints/ControlNetModel'

# load IdentityNet
controlnet = ControlNetModel.from_pretrained(controlnet_path, torch_dtype=torch.float16)

pipe = StableDiffusionXLInstantIDPipeline.from_pretrained(
...     "stabilityai/stable-diffusion-xl-base-1.0", controlnet=controlnet, torch_dtype=torch.float16
... )
pipe.cuda()

# load adapter
pipe.load_ip_adapter_instantid(face_adapter)

独自の顔画像の生成

# load an image
image = load_image("your-example.jpg")

# prepare face emb
face_info = app.get(cv2.cvtColor(np.array(face_image), cv2.COLOR_RGB2BGR))
face_info = sorted(face_info, key=lambda x:(x['bbox'][2]-x['bbox'][0])*x['bbox'][3]-x['bbox'][1])[-1] # only use the maximum face
face_emb = face_info['embedding']
face_kps = draw_kps(face_image, face_info['kps'])

pipe.set_ip_adapter_scale(0.8)

prompt = "analog film photo of a man. faded film, desaturated, 35mm photo, grainy, vignette, vintage, Kodachrome, Lomography, stained, highly detailed, found footage, masterpiece, best quality"
negative_prompt = "(lowres, low quality, worst quality:1.2), (text:1.2), watermark, painting, drawing, illustration, glitch, deformed, mutated, cross-eyed, ugly, disfigured (lowres, low quality, worst quality:1.2), (text:1.2), watermark, painting, drawing, illustration, glitch,deformed, mutated, cross-eyed, ugly, disfigured"

# generate image
image = pipe(
...     prompt, image_embeds=face_emb, image=face_kps, controlnet_conditioning_scale=0.8
... ).images[0]

詳細については、GitHubリポジトリの指示に従ってください。

✨ 主な機能

単一画像のみでID保持生成を実現する最新のチューニング不要手法。
さまざまな下流タスクをサポート。

💻 使用例

基本的な使用法

# モデルのダウンロード
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="InstantX/InstantID", filename="ControlNetModel/config.json", local_dir="./checkpoints")
hf_hub_download(repo_id="InstantX/InstantID", filename="ControlNetModel/diffusion_pytorch_model.safetensors", local_dir="./checkpoints")
hf_hub_download(repo_id="InstantX/InstantID", filename="ip-adapter.bin", local_dir="./checkpoints")

高度な使用法

# 独自の顔画像の生成
# load an image
image = load_image("your-example.jpg")

# prepare face emb
face_info = app.get(cv2.cvtColor(np.array(face_image), cv2.COLOR_RGB2BGR))
face_info = sorted(face_info, key=lambda x:(x['bbox'][2]-x['bbox'][0])*x['bbox'][3]-x['bbox'][1])[-1] # only use the maximum face
face_emb = face_info['embedding']
face_kps = draw_kps(face_image, face_info['kps'])

pipe.set_ip_adapter_scale(0.8)

prompt = "analog film photo of a man. faded film, desaturated, 35mm photo, grainy, vignette, vintage, Kodachrome, Lomography, stained, highly detailed, found footage, masterpiece, best quality"
negative_prompt = "(lowres, low quality, worst quality:1.2), (text:1.2), watermark, painting, drawing, illustration, glitch, deformed, mutated, cross-eyed, ugly, disfigured (lowres, low quality, worst quality:1.2), (text:1.2), watermark, painting, drawing, illustration, glitch,deformed, mutated, cross-eyed, ugly, disfigured"

# generate image
image = pipe(
...     prompt, image_embeds=face_emb, image=face_kps, controlnet_conditioning_scale=0.8
... ).images[0]

📚 ドキュメント

使用上のヒント

類似度に満足できない場合は、「IdentityNet Strength」と「Adapter Strength」の重みを増やしてみてください。
彩度が高すぎると感じた場合は、まずAdapter strengthを下げてみてください。それでも高すぎる場合は、IdentityNet strengthを下げてください。
テキスト制御が思った通りにいかない場合は、Adapter strengthを下げてください。
リアルなスタイルが不十分だと感じた場合は、GitHubリポジトリにアクセスして、よりリアルなベースモデルを使用してください。

デモ

📄 ライセンス

このプロジェクトはApacheライセンスの下で公開されており、AIによる画像生成分野に前向きな影響を与えることを目指しています。ユーザーはこのツールを使用して画像を作成する自由が与えられていますが、地域の法律を遵守し、責任を持って使用する義務があります。開発者は、ユーザーによる潜在的な誤用に対して一切の責任を負いません。

引用

@article{wang2024instantid,
  title={InstantID: Zero-shot Identity-Preserving Generation in Seconds},
  author={Wang, Qixun and Bai, Xu and Wang, Haofan and Qin, Zekui and Chen, Anthony},
  journal={arXiv preprint arXiv:2401.07519},
  year={2024}
}