OmniGen - V1 - fp8_e4m3fnオープンソースマルチモーダル画像生成モデル - プラグイン不要で前処理なしで指令に従って画像生成

ホーム

Omnigen V1 Fp8 E4m3fn

silveroxidesによって開発

OmniGenは統一されたマルチモーダル画像生成モデルで、多様な命令に基づいて様々な画像を生成でき、追加のプラグインや前処理ステップが不要です。

テキスト生成画像オープンソースライセンス:MIT #マルチモーダル画像生成 #統一生成フレームワーク #命令駆動生成

ダウンロード数 64

リリース時間 : 11/15/2024

モデル概要

OmniGenはシンプルで柔軟な、すぐに使える生成ツールを目指しており、テキストから画像生成、主体駆動生成、アイデンティティ保持生成、画像編集など多様なタスクをサポートします。

モデル特徴

統一生成フレームワーク

ControlNetやIP-Adapterなどの追加モジュールをロードせずに多様な画像生成タスクを実行可能

マルチモーダル命令理解

入力画像の特徴（対象物体、人体姿勢、深度マップなど）を自動認識可能

シンプルで使いやすい

任意のマルチモーダル命令だけで直接目標画像を生成可能、追加プラグインや操作が不要

柔軟な拡張性

微調整スクリプトを提供し、モデル能力の簡単な拡張をサポート

モデル能力

テキストから画像生成

主体駆動生成

アイデンティティ保持生成

画像編集

条件付き画像生成

使用事例

クリエイティブデザイン

ファッションデザイン

テキスト記述に基づいて特定の服装を着た人物像を生成

高品質で記述に合致したファッションデザイン画像を生成

コンテンツ制作

ソーシャルメディアコンテンツ生成

既存画像に基づいてスタイル統一されたシリーズコンテンツを生成

主体のアイデンティティ一貫性を保った多様なコンテンツ

🚀 OmniGen: 統一画像生成

OmniGenは、マルチモーダルなプロンプトから幅広い画像を生成できる統一画像生成モデルです。シンプルで柔軟かつ使いやすい設計となっています。推論コードを提供しているので、誰でもOmniGenのさまざまな機能を探索できます。

詳細については、私たちのGitHubリポジトリを参照してください: https://github.com/VectorSpaceLab/OmniGen

🚀 クイックスタート

OmniGenの使用方法

GitHubを通じてインストールすることをおすすめします:

git clone https://github.com/staoxiao/OmniGen.git
cd OmniGen
pip install -e .

または、pypiを通じてインストールすることもできます:

pip install OmniGen

以下はいくつかの使用例です:

from OmniGen import OmniGenPipeline

pipe = OmniGenPipeline.from_pretrained("Shitao/OmniGen-v1")

# テキストから画像へ
images = pipe(
    prompt="A curly-haired man in a red shirt is drinking tea.", 
    height=1024, 
    width=1024, 
    guidance_scale=2.5,
    seed=0,
)
images[0].save("example_t2i.png")  # 出力されたPIL画像を保存

# マルチモーダルから画像へ
# プロンプトでは、画像を表すためにプレースホルダーを使用します。画像のプレースホルダーは <img><|image_*|></img> の形式にする必要があります。
# input_imagesに複数の画像を追加することができます。各画像にはプレースホルダーが必要です。たとえば、入力画像のリスト input_images [img1_path, img2_path] の場合、プロンプトには2つのプレースホルダー <img><|image_1|></img>, <img><|image_2|></img> が必要です。
images = pipe(
    prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>.",
    input_images=["./imgs/test_cases/two_man.jpg"],
    height=1024, 
    width=1024,
    separate_cfg_infer=False,  # メモリ不足の場合は、separate_cfg_infer=True に設定できます
    guidance_scale=3, 
    img_guidance_scale=1.6
)
images[0].save("example_ti2i.png")  # 出力されたPIL画像を保存

推論時の引数の詳細については、docs/inference.md を参照してください。画像生成のさらなる例については、inference.ipynb と inference_demo.ipynb を参照してください。

Diffusersの使用方法

近日公開予定です。

Gradioデモ

Huggingface でオンラインデモを構築しています。ローカルのGradioデモを実行するには、以下のコマンドを実行します:

python app.py

✨ 主な機能

OmniGenは、マルチモーダルなプロンプトから幅広い画像を生成できる統一画像生成モデルです。既存の画像生成モデルでは、満足のいく画像を生成するために、いくつかの追加のネットワークモジュール（ControlNet、IP-Adapter、Reference-Netなど）をロードし、追加の前処理ステップ（顔検出、ポーズ推定、クロッピングなど）を実行する必要があることが多いです。しかし、私たちは、将来の画像生成パラダイムは、GPTが言語生成で機能するのと同様に、追加のプラグインや操作を必要とせずに、任意のマルチモーダル命令を通じて直接さまざまな画像を生成する、よりシンプルで柔軟なものになるべきだと考えています。

📦 インストール

OmniGenのインストール

GitHubを通じてインストールすることをおすすめします:

git clone https://github.com/staoxiao/OmniGen.git
cd OmniGen
pip install -e .

または、pypiを通じてインストールすることもできます:

pip install OmniGen

💻 使用例

基本的な使用法

from OmniGen import OmniGenPipeline

pipe = OmniGenPipeline.from_pretrained("Shitao/OmniGen-v1")

# Text to Image
images = pipe(
    prompt="A curly-haired man in a red shirt is drinking tea.", 
    height=1024, 
    width=1024, 
    guidance_scale=2.5,
    seed=0,
)
images[0].save("example_t2i.png")  # save output PIL Image

# Multi-modal to Image
# In prompt, we use the placeholder to represent the image. The image placeholder should be in the format of <img><|image_*|></img>
# You can add multiple images in the input_images. Please ensure that each image has its placeholder. For example, for the list input_images [img1_path, img2_path], the prompt needs to have two placeholders: <img><|image_1|></img>, <img><|image_2|></img>.
images = pipe(
    prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>.",
    input_images=["./imgs/test_cases/two_man.jpg"],
    height=1024, 
    width=1024,
    separate_cfg_infer=False,  # if OOM, you can set separate_cfg_infer=True 
    guidance_scale=3, 
    img_guidance_scale=1.6
)
images[0].save("example_ti2i.png")  # save output PIL image

📚 ドキュメント

概要

OmniGenは、マルチモーダルなプロンプトから幅広い画像を生成できる統一画像生成モデルです。シンプルで柔軟かつ使いやすい設計となっています。私たちは推論コードを提供しているので、誰でもOmniGenのさまざまな機能を探索できます。

ニュース

2024-10-22: :fire: OmniGenのコードを公開しました。推論: docs/inference.md 学習: docs/fine-tuning.md
2024-10-22: :fire: OmniGenの最初のバージョンを公開しました。モデルの重み: Shitao/OmniGen-v1 HFデモ: 🤗

手法

詳細については、論文を参照してください。

OmniGenの機能

demo

OmniGenは、テキストから画像の生成、主題駆動型の生成、Identity-Preserving Generation、画像編集、画像条件付き生成など、さまざまなタスクを実行するために使用できる統一画像生成モデルです。OmniGenは追加のプラグインや操作を必要とせず、テキストプロンプトに従って入力画像の特徴（必要なオブジェクト、人物のポーズ、深度マッピングなど）を自動的に識別できます。推論コードにいくつかの例を示しています。また、推論デモコードでは、画像を生成して修正する面白いパイプラインを示しています。

特定の機能に完全に満足できない場合や、新しい機能を追加したい場合は、OmniGenのファインチューニングを試すことができます。

ファインチューニング

私たちは、OmniGenをファインチューニングするためのトレーニングスクリプト train.py を提供しています。以下はLoRAファインチューニングの簡単な例です:

accelerate launch --num_processes=1 train.py \
    --model_name_or_path Shitao/OmniGen-v1 \
    --batch_size_per_device 2 \
    --condition_dropout_prob 0.01 \
    --lr 1e-3 \
    --use_lora \
    --lora_rank 8 \
    --json_file ./toy_data/toy_subject_data.jsonl \
    --image_path ./toy_data/images \
    --max_input_length_limit 18000 \
    --keep_raw_resolution \
    --max_image_size 1024 \
    --gradient_accumulation_steps 1 \
    --ckpt_every 10 \
    --epochs 200 \
    --log_every 1 \
    --results_dir ./results/toy_finetune_lora

詳細（完全なファインチューニングなど）については、docs/finetune.md を参照してください。

🔧 技術詳細

詳細については、論文を参照してください。

📄 ライセンス

このリポジトリはMITライセンスの下でライセンスされています。

引用

このリポジトリが役に立った場合は、スター⭐を付けて引用を考慮してください。

@article{xiao2024omnigen,
  title={Omnigen: Unified image generation},
  author={Xiao, Shitao and Wang, Yueze and Zhou, Junjie and Yuan, Huaying and Xing, Xingrun and Yan, Ruiran and Wang, Shuting and Huang, Tiejun and Liu, Zheng},
  journal={arXiv preprint arXiv:2409.11340},
  year={2024}
}