OmniGen-v1オープンソース画像生成モデル - マルチモーダルプロンプトをサポート、シンプルで柔軟かつ使いやすい

Omnigen V1

BAAIによって開発

OmniGenはマルチモーダルプロンプトをサポートする統一画像生成モデルで、シンプルで柔軟、使いやすい設計理念を持っています。

テキスト生成画像オープンソースライセンス:MIT #マルチモーダル画像生成 #プラグイン不要の制御 #統一アーキテクチャ

ダウンロード数 121

リリース時間 : 1/1/2025

モデル概要

OmniGenはマルチモーダルプロンプトをサポートする統一画像生成モデルで、マルチモーダル指令を通じて直接多様な画像を生成でき、プラグインや複雑な操作は不要です。テキストから画像生成、オブジェクト駆動生成、アイデンティティ保持生成、画像編集などのタスクをサポートします。

モデル特徴

マルチモーダルプロンプトサポート

テキストや画像など様々なモーダルのプロンプトで画像を生成でき、追加のプラグインや複雑な操作は不要です。

柔軟な制御

入力画像の特徴（対象物体、人体姿勢、深度マップなど）を自動認識し、画像生成を柔軟に制御できます。

使いやすさ

シンプルな推論コードとファインチューニングスクリプトを提供しており、ユーザーは簡単に機能を拡張できます。

モデル能力

テキストから画像生成

オブジェクト駆動生成

アイデンティティ保持生成

画像編集

使用事例

クリエイティブデザイン

人物イメージ生成

テキスト記述に基づいて特定のイメージの人物画像を生成します。

赤いシャツを着た巻き毛の男性がお茶を飲んでいるなど、高品質な人物画像を生成します。

画像編集

入力画像とテキストプロンプトに基づいて画像内容を編集します。

画像中の人物を特定のイメージに置き換えたり、動作を変更したりします。

アート創作

アートスタイル変換

入力画像を特定のアートスタイルに変換します。

アートスタイルを持つ画像を生成します。

🚀 OmniGen: 統一画像生成

OmniGenは、多様なモーダルのプロンプトから幅広い画像を生成できる統一画像生成モデルです。シンプルで柔軟かつ使いやすい設計になっています。

🚀 クイックスタート

OmniGenの使用方法

Githubを通じてインストールします。

git clone https://github.com/staoxiao/OmniGen.git
cd OmniGen
pip install -e .

競合を避けるために新しい環境を作成することもできます。

# Python 3.10.12のconda環境を作成します（virtualenvを使用することもできます）
conda create -n omnigen python=3.10.12
conda activate omnigen

# あなたのCUDAバージョンに合わせてPyTorchをインストールします。例えば：
pip install torch==2.3.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118

git clone https://github.com/staoxiao/OmniGen.git
cd OmniGen
pip install -e .

以下はいくつかの使用例です。

from OmniGen import OmniGenPipeline

pipe = OmniGenPipeline.from_pretrained("Shitao/OmniGen-v1")  
# 注意: ローカルのモデルパスも使用できます。例えば、'pipe = OmniGenPipeline.from_pretrained(your_local_model_path)' のように指定します。your_local_model_path内のすべてのファイルは、https://huggingface.co/Shitao/OmniGen-v1/tree/main のように整理する必要があります。

## テキストから画像へ
images = pipe(
    prompt="A curly-haired man in a red shirt is drinking tea.", 
    height=1024, 
    width=1024, 
    guidance_scale=2.5,
    seed=0,
)
images[0].save("example_t2i.png")  # 出力されたPIL画像を保存します

## マルチモーダルから画像へ
# プロンプトでは、画像を表すためにプレースホルダーを使用します。画像のプレースホルダーは <img><|image_*|></img> の形式にする必要があります。
# input_imagesに複数の画像を追加することができます。ただし、各画像にはプレースホルダーが必要です。例えば、入力画像のリスト [img1_path, img2_path] の場合、プロンプトには2つのプレースホルダー <img><|image_1|></img>、<img><|image_2|></img> が必要です。
images = pipe(
    prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>.",
    input_images=["./imgs/test_cases/two_man.jpg"],
    height=1024, 
    width=1024,
    guidance_scale=2.5, 
    img_guidance_scale=1.6,
    seed=0
)
images[0].save("example_ti2i.png")  # 出力されたPIL画像を保存します

メモリ不足の場合は、offload_model=True を設定することができます。複数の画像を入力したときに推論時間が長すぎる場合は、max_input_image_size を小さくすることができます。必要なリソースとOmniGenを効率的に実行する方法については、docs/inference.md#requiremented-resources を参照してください。
画像生成の詳細な例については、inference.ipynb と inference_demo.ipynb を参照してください。
推論時の引数の詳細については、docs/inference.md を参照してください。

Diffusersの使用方法

近日公開予定です。

Gradioデモ

Huggingface でオンラインデモを構築しています。ローカルのGradioデモを使用するには、pip install gradio spaces をインストールしてから、以下のコマンドを実行します。

pip install gradio spaces
python app.py

Google Colabの使用方法

Google Colabで使用するには、以下のコマンドを使用してください。

!git clone https://github.com/staoxiao/OmniGen.git
%cd OmniGen
!pip install -e .
!pip install gradio spaces
!python app.py --share

✨ 主な機能

OmniGenは、テキストから画像の生成、主題駆動型生成、Identity-Preserving生成、画像編集、画像条件付き生成など、様々なタスクを実行できる統一画像生成モデルです。OmniGenは追加のプラグインや操作を必要とせず、テキストプロンプトに基づいて入力画像の特徴（例えば、必要なオブジェクト、人物のポーズ、深度マッピングなど）を自動的に識別することができます。 inference.ipynb でいくつかの例を紹介しています。また、inference_demo.ipynb では、画像を生成して修正する面白いパイプラインを紹介しています。 OmniGenを使用することで、画像生成を柔軟に制御することができます。 demo 特定の機能に完全に満足しない場合や、新しい機能を追加したい場合は、OmniGenのファインチューニングを試すことができます。

📦 インストール

上述のクイックスタートセクションを参照してください。

📚 ドキュメント

1. ニュース

2024年10月28日: 推論コードの新バージョンをリリースし、メモリ使用量と時間コストを最適化しました。詳細は docs/inference.md を参照してください。
2024年10月22日: :fire: OmniGenのコードをリリースしました。推論: docs/inference.md 学習: docs/fine-tuning.md
2024年10月22日: :fire: OmniGenの最初のバージョンをリリースしました。モデルの重み: Shitao/OmniGen-v1 HFデモ: 🤗

3. 手法論

詳細は論文を参照してください。

4. OmniGenの機能

6. ファインチューニング

OmniGenをファインチューニングするための学習スクリプト train.py を提供しています。以下はLoRAファインチューニングの簡単な例です。

accelerate launch --num_processes=1 train.py \
    --model_name_or_path Shitao/OmniGen-v1 \
    --batch_size_per_device 2 \
    --condition_dropout_prob 0.01 \
    --lr 1e-3 \
    --use_lora \
    --lora_rank 8 \
    --json_file ./toy_data/toy_subject_data.jsonl \
    --image_path ./toy_data/images \
    --max_input_length_limit 18000 \
    --keep_raw_resolution \
    --max_image_size 1024 \
    --gradient_accumulation_steps 1 \
    --ckpt_every 10 \
    --epochs 200 \
    --log_every 1 \
    --results_dir ./results/toy_finetune_lora

詳細（例えば、完全なファインチューニング）については docs/fine-tuning.md を参照してください。

🔧 技術詳細

詳細は論文を参照してください。

📄 ライセンス

このリポジトリは MITライセンスの下でライセンスされています。

引用

このリポジトリが役に立った場合は、スター⭐を付けて引用していただけると幸いです。

@article{xiao2024omnigen,
  title={Omnigen: Unified image generation},
  author={Xiao, Shitao and Wang, Yueze and Zhou, Junjie and Yuan, Huaying and Xing, Xingrun and Yan, Ruiran and Wang, Shuting and Huang, Tiejun and Liu, Zheng},
  journal={arXiv preprint arXiv:2409.11340},
  year={2024}
}