OmniGen-V1オープンソースマルチモーダル画像生成モデル - プラグイン不要の前処理で必要に応じて各種画像を生成

Home

Omnigen V1

Developed by silveroxides

OmniGenは統一されたマルチモーダル画像生成モデルで、多様な命令に基づいて様々な画像を生成でき、追加のプラグインや煩雑な前処理を必要としません。

テキスト生成画像 Open Source License:MIT #マルチモーダル命令生成 #ゼロプラグイン画像編集 #統一生成フレームワーク

Downloads 2,252

Release Time : 11/4/2024

Model Overview

OmniGenは、簡潔で柔軟な画像生成パラダイムの構築を目指しており、GPTがテキストを処理するように、マルチモーダル命令を通じて直接理想的な画像を生成できます。

Model Features

マルチモーダル命令生成

入力画像の特徴を自動的に認識し、テキストプロンプトと組み合わせて画像を生成でき、追加のプラグインや前処理を必要としません

統一生成パラダイム

様々な画像生成タスク（テキストから画像生成、主体駆動生成、アイデンティティ保持生成など）を単一モデルで解決

柔軟な拡張性

微調整によりモデルの能力を簡単に拡張でき、対応するデータを準備するだけで任意の画像生成タスクを構築できます

Model Capabilities

テキストから画像生成

主体駆動生成

アイデンティティ保持生成

画像編集

条件付き画像生成

Use Cases

クリエイティブデザイン

キャラクターデザイン

テキスト記述に基づいて特定のスタイルのキャラクターイメージを生成

高品質なキャラクター画像を生成可能

シーンデザイン

テキスト記述に基づいて特定のシーンの画像を生成

記述に合致した多様なシーンを生成可能

商業アプリケーション

広告素材生成

製品の特徴に合った広告画像を迅速に生成

デザイン時間とコストを削減可能

製品展示

製品の説明に基づいて展示画像を生成

魅力的な製品展示画像を生成可能

🚀 OmniGen: 統一画像生成

OmniGenは、マルチモーダルプロンプトから幅広い画像を生成できる統一画像生成モデルです。シンプルで柔軟かつ使いやすい設計になっています。このモデルには推論コードも用意されており、誰でもOmniGenの機能を探求することができます。

🚀 クイックスタート

OmniGenの使用方法

GitHub経由でインストールすることをおすすめします。

git clone https://github.com/staoxiao/OmniGen.git
cd OmniGen
pip install -e .

または、pypi経由でインストールすることもできます。

pip install OmniGen

以下は使用例です。

基本的な使用法

from OmniGen import OmniGenPipeline

pipe = OmniGenPipeline.from_pretrained("Shitao/OmniGen-v1")

# テキストから画像への変換
images = pipe(
    prompt="A curly-haired man in a red shirt is drinking tea.", 
    height=1024, 
    width=1024, 
    guidance_scale=2.5,
    seed=0,
)
images[0].save("example_t2i.png")  # 出力されたPIL画像を保存

# マルチモーダルから画像への変換
# プロンプトでは、画像を表すためにプレースホルダーを使用します。画像のプレースホルダーは <img><|image_*|></img> の形式にする必要があります。
# input_imagesに複数の画像を追加することができます。各画像にはプレースホルダーが必要です。例えば、入力画像のリスト [img1_path, img2_path] の場合、プロンプトには2つのプレースホルダー <img><|image_1|></img>、<img><|image_2|></img> が必要です。
images = pipe(
    prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>.",
    input_images=["./imgs/test_cases/two_man.jpg"],
    height=1024, 
    width=1024,
    separate_cfg_infer=False,  # OOMが発生する場合は、separate_cfg_infer=Trueに設定できます
    guidance_scale=3, 
    img_guidance_scale=1.6
)
images[0].save("example_ti2i.png")  # 出力されたPIL画像を保存

推論時の引数に関する詳細は、docs/inference.md を参照してください。画像生成のより多くの例については、inference.ipynb と inference_demo.ipynb を参照してください。

Diffusersの使用方法

近日公開予定です。

Gradioデモ

Huggingface でオンラインデモを構築しています。

ローカルのGradioデモを実行するには、以下のコマンドを実行します。

python app.py

✨ 主な機能

OmniGenは、テキストから画像の生成、主題駆動型の生成、Identity-Preserving Generation、画像編集、画像条件付き生成など、様々なタスクを実行することができる統一画像生成モデルです。OmniGenは追加のプラグインや操作を必要とせず、テキストプロンプトに応じて入力画像の特徴（必要なオブジェクト、人物のポーズ、深度マッピングなど）を自動的に識別することができます。 inference.ipynb でいくつかの例を紹介しています。また、inference_demo.ipynb では、画像を生成して修正する面白いパイプラインを紹介しています。

特定の機能に完全に満足できない場合や、新しい機能を追加したい場合は、OmniGenのファインチューニングを試すことができます。

📦 インストール

OmniGenのインストール

GitHub経由でインストールすることをおすすめします。

git clone https://github.com/staoxiao/OmniGen.git
cd OmniGen
pip install -e .

または、pypi経由でインストールすることもできます。

pip install OmniGen

🔧 技術詳細

詳細については、論文を参照してください。

📚 ドキュメント

ファインチューニング

OmniGenをファインチューニングするためのトレーニングスクリプト train.py を提供しています。以下はLoRAファインチューニングの簡単な例です。

accelerate launch --num_processes=1 train.py \
    --model_name_or_path Shitao/OmniGen-v1 \
    --batch_size_per_device 2 \
    --condition_dropout_prob 0.01 \
    --lr 1e-3 \
    --use_lora \
    --lora_rank 8 \
    --json_file ./toy_data/toy_subject_data.jsonl \
    --image_path ./toy_data/images \
    --max_input_length_limit 18000 \
    --keep_raw_resolution \
    --max_image_size 1024 \
    --gradient_accumulation_steps 1 \
    --ckpt_every 10 \
    --epochs 200 \
    --log_every 1 \
    --results_dir ./results/toy_finetune_lora

詳細（完全なファインチューニングなど）については、docs/finetune.md を参照してください。

📄 ライセンス

このリポジトリは MITライセンスの下でライセンスされています。

引用

このリポジトリが役に立った場合は、スター⭐を付けて引用することを検討してください。

@article{xiao2024omnigen,
  title={Omnigen: Unified image generation},
  author={Xiao, Shitao and Wang, Yueze and Zhou, Junjie and Yuan, Huaying and Xing, Xingrun and Yan, Ruiran and Wang, Shuting and Huang, Tiejun and Liu, Zheng},
  journal={arXiv preprint arXiv:2409.11340},
  year={2024}
}

その他の情報

詳細な情報は、GitHubリポジトリ https://github.com/VectorSpaceLab/OmniGen を参照してください。