🚀 OmniGen2
OmniGen2は、強力で効率的な統合マルチモーダルモデルです。このモデルは、30億パラメータのビジュアル言語モデル(VLM)と40億パラメータの拡散モデルの2つの主要なコンポーネントで構成されています。この設計により、凍結された30億パラメータのVLM(Qwen-VL-2.5)が視覚信号とユーザーの指示を解釈し、40億パラメータの拡散モデルがその理解に基づいて高品質な画像生成を行います。
ニュース |
クイックスタート |
使用上のヒント |
オンラインデモ |
引用 |
ライセンス
このデュアルコンポーネントアーキテクチャにより、OmniGen2は以下の4つの主要な機能で強力なパフォーマンスを発揮します。
- 視覚理解:Qwen-VL-2.5の基盤から、画像コンテンツを解釈および分析する堅牢な能力を引き継いでいます。
- テキストから画像への生成:テキストプロンプトから高忠実度で美しい画像を作成します。
- 指示に基づく画像編集:複雑な指示に基づく画像修正を高精度に実行し、オープンソースモデルの中で最先端のパフォーマンスを達成します。
- 文脈内生成:タスク、参照オブジェクト、シーンなどの多様な入力を処理し、柔軟に組み合わせて、新しく一貫性のある視覚出力を生成する汎用的な機能です。
オープンソースプロジェクトとして、OmniGen2は、制御可能で個別化された生成AIの最先端を探求する研究者や開発者に、強力でリソース効率の良い基盤を提供します。
我々は、訓練コード、データセット、およびデータ構築パイプラインを近日中に公開する予定です。お楽しみに!
OmniGen2の全体的な機能のデモンストレーション。
OmniGen2の画像編集機能のデモンストレーション。
OmniGen2の文脈内生成機能のデモンストレーション。
✨ 主な機能
OmniGen2は、30億パラメータのビジュアル言語モデル(VLM)と40億パラメータの拡散モデルの2つの主要なコンポーネントで構成されています。この設計により、凍結された30億パラメータのVLM(Qwen-VL-2.5)が視覚信号とユーザーの指示を解釈し、40億パラメータの拡散モデルがその理解に基づいて高品質な画像生成を行います。
📦 インストール
環境セットアップ
推奨設定
git clone git@github.com:VectorSpaceLab/OmniGen2.git
cd OmniGen2
conda create -n omnigen2 python=3.11
conda activate omnigen2
pip install torch==2.6.0 torchvision --extra-index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
中国本土のユーザー向け
pip install torch==2.6.0 torchvision --index-url https://mirror.sjtu.edu.cn/pytorch-wheels/cu124
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install flash-attn --no-build-isolation -i https://pypi.tuna.tsinghua.edu.cn/simple
実行例
bash example_understanding.sh
bash example_t2i.sh
bash example_edit.sh
bash example_subject_driven_edit.sh
Gradioデモ
💡 使用例
OmniGen2で最適な結果を得るには、特定のユースケースに基づいて以下の主要なハイパーパラメータを調整できます。
num_inference_step
:各生成のサンプリングステップ数。一般的に値が高いほど品質が向上しますが、生成時間が長くなります。
text_guidance_scale
:出力がテキストプロンプトにどれだけ厳密に従うかを制御します(分類器なしガイダンス)。
- テキストから画像への生成:単純または詳細が少ないプロンプトの場合は、高い値(例:6 - 7)を使用します。複雑で非常に詳細なプロンプトの場合は、低い値(例:4)を使用します。
- 編集/合成:4 - 5程度の中程度の値が推奨されます。
image_guidance_scale
:これは、最終的な画像が入力参照画像にどれだけ似るべきかを制御します。
- トレードオフ:高い値(〜2.0)は、出力を参照画像の構造とスタイルに忠実にしますが、テキストプロンプトの一部を無視する可能性があります。低い値(〜1.5)は、テキストプロンプトにより多くの影響力を与えます。
- ヒント:1.5から始めて、参照画像との一貫性が必要な場合は増やします。画像編集タスクの場合は、1.3から2.0の間に設定することをお勧めします。文脈内生成タスクの場合は、高い
image_guidance_scale
が入力画像の詳細をより多く維持し、2.5から3.0の間に設定することをお勧めします。
max_input_image_pixels
:処理速度とメモリ消費を管理するために、この総ピクセル数を超える参照画像は自動的にリサイズされます。
negative_prompt
:モデルに画像に表示したくないものを伝えます。
- 例:ぼやけた、低品質、テキスト、透かし
- ヒント:最適な結果を得るには、異なるネガティブプロンプトを試してみましょう。わからない場合は、空白のままにしておきます。
📚 詳細ドキュメント
ニュース
- 2025-06-16:Gradio と Jupyter のデモが利用可能になりました。
- 2025-06-16:マルチモーダル生成モデルである OmniGen2 をリリースしました。モデルの重みは huggingface でアクセスできます。
TODO
- [ ] 技術レポート。
- [ ] 文脈内生成ベンチマーク:OmniContext。
- [ ] CPUオフロードをサポートし、推論効率を向上させる。
- [ ] 訓練データとスクリプト。
- [ ] データ構築パイプライン。
- [ ] ComfyUIデモ(コミュニティのサポートを大いに歓迎します!)。
🔖 引用
このリポジトリや我々の研究が役に立った場合は、スターを付けて引用していただけると幸いです(OmniGen2のレポートはできるだけ早く公開する予定です)。
@article{xiao2024omnigen,
title={Omnigen: Unified image generation},
author={Xiao, Shitao and Wang, Yueze and Zhou, Junjie and Yuan, Huaying and Xing, Xingrun and Yan, Ruiran and Wang, Shuting and Huang, Tiejun and Liu, Zheng},
journal={arXiv preprint arXiv:2409.11340},
year={2024}
}
📄 ライセンス
この作品は、Apache 2.0ライセンスの下でライセンスされています。