OmniGen2オープンソースマルチモーダルモデル - ビジュアル理解、画像生成および編集機能をサポート

ホーム

Omnigen2

OmniGen2によって開発

OmniGen2は強力で効率的な統一マルチモーダルモデルで、3Bのビジュアル言語モデルと4Bの拡散モデルで構成され、ビジュアル理解、テキストから画像への生成、指令による画像編集、コンテキスト生成をサポートします。

テキスト生成画像オープンソースライセンス:Apache-2.0 #マルチモーダル生成 #指令による編集 #高忠実度画像合成

ダウンロード数 136

リリース時間 : 6/6/2025

モデル概要

OmniGen2は統一マルチモーダルモデルで、ビジュアル言語モデルと拡散モデルの能力を組み合わせ、さまざまなビジュアルおよびテキスト生成タスクに適しており、研究者や開発者に効率的な基礎ツールを提供します。

モデル特徴

ビジュアル理解

Qwen - VL - 2.5の強力な画像内容の解釈と分析能力を引き継いでいます。

テキストから画像への生成

テキストプロンプトに基づいて高忠実度で美しい画像を作成します。

指令による画像編集

指令に基づく複雑な画像修正を高精度で実行し、オープンソースモデルで最先端の性能を達成しています。

コンテキスト生成

タスク、参照オブジェクト、シーンなどのさまざまな入力を処理し、柔軟に組み合わせて、新しく一貫性のあるビジュアル出力を生成できます。

モデル能力

画像内容の解釈

テキストから画像への生成

指令による画像編集

マルチモーダルコンテキスト生成

使用事例

クリエイティブデザイン

テキストから画像への生成

ユーザーが提供したテキストプロンプトに基づいて高品質の画像を生成します。

高忠実度で美しい画像を生成します。

画像編集

指令による画像編集

ユーザーの指令に基づいて画像を複雑に修正します。

高精度で画像編集タスクを完了します。

マルチモーダルアプリケーション

コンテキスト生成

複数の入力を組み合わせて一貫性のあるビジュアル出力を生成します。

新しくコンテキストに合ったビジュアルコンテンツを生成します。

🚀 OmniGen2

OmniGen2は、強力で効率的な統合マルチモーダルモデルです。このモデルは、30億パラメータのビジュアル言語モデル（VLM）と40億パラメータの拡散モデルの2つの主要なコンポーネントで構成されています。この設計により、凍結された30億パラメータのVLM（Qwen-VL-2.5）が視覚信号とユーザーの指示を解釈し、40億パラメータの拡散モデルがその理解に基づいて高品質な画像生成を行います。

ニュース | クイックスタート | 使用上のヒント | オンラインデモ | 引用 | ライセンス

このデュアルコンポーネントアーキテクチャにより、OmniGen2は以下の4つの主要な機能で強力なパフォーマンスを発揮します。

視覚理解：Qwen-VL-2.5の基盤から、画像コンテンツを解釈および分析する堅牢な能力を引き継いでいます。
テキストから画像への生成：テキストプロンプトから高忠実度で美しい画像を作成します。
指示に基づく画像編集：複雑な指示に基づく画像修正を高精度に実行し、オープンソースモデルの中で最先端のパフォーマンスを達成します。
文脈内生成：タスク、参照オブジェクト、シーンなどの多様な入力を処理し、柔軟に組み合わせて、新しく一貫性のある視覚出力を生成する汎用的な機能です。

オープンソースプロジェクトとして、OmniGen2は、制御可能で個別化された生成AIの最先端を探求する研究者や開発者に、強力でリソース効率の良い基盤を提供します。

我々は、訓練コード、データセット、およびデータ構築パイプラインを近日中に公開する予定です。お楽しみに！

OmniGen2の全体的な機能のデモンストレーション。

OmniGen2の画像編集機能のデモンストレーション。

OmniGen2の文脈内生成機能のデモンストレーション。

✨ 主な機能

OmniGen2は、30億パラメータのビジュアル言語モデル（VLM）と40億パラメータの拡散モデルの2つの主要なコンポーネントで構成されています。この設計により、凍結された30億パラメータのVLM（Qwen-VL-2.5）が視覚信号とユーザーの指示を解釈し、40億パラメータの拡散モデルがその理解に基づいて高品質な画像生成を行います。

📦 インストール

環境セットアップ

推奨設定

# 1. リポジトリをクローンする
git clone git@github.com:VectorSpaceLab/OmniGen2.git
cd OmniGen2

# 2. （オプション）クリーンなPython環境を作成する
conda create -n omnigen2 python=3.11
conda activate omnigen2

# 3. 依存関係をインストールする
# 3.1 PyTorchをインストールする（正しいCUDAバージョンを選択する）
pip install torch==2.6.0 torchvision --extra-index-url https://download.pytorch.org/whl/cu124

# 3.2 その他の必要なパッケージをインストールする
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

中国本土のユーザー向け

# 国内ミラーからPyTorchをインストールする
pip install torch==2.6.0 torchvision --index-url https://mirror.sjtu.edu.cn/pytorch-wheels/cu124

# 清华大学ミラーから他の依存関係をインストールする
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install flash-attn --no-build-isolation -i https://pypi.tuna.tsinghua.edu.cn/simple

実行例

# 視覚理解
bash example_understanding.sh

# テキストから画像への生成
bash example_t2i.sh

# 指示に基づく画像編集
bash example_edit.sh

# サブジェクト駆動型画像編集
bash example_subject_driven_edit.sh

Gradioデモ

オンラインデモ：一時的に8つのGPUを提供してオンラインデモをサポートしています。特定のリンクのキューが長いことに気付いた場合は、他のリンクを試してみてください。

デモ1, デモ2, デモ3, デモ4

チャットデモ1, チャットデモ2, チャットデモ3, チャットデモ4

ローカルで実行する：

pip install gradio
python app.py
# オプション：デモを公開リンクで共有する
python app.py --share

💡 使用例

OmniGen2で最適な結果を得るには、特定のユースケースに基づいて以下の主要なハイパーパラメータを調整できます。

num_inference_step：各生成のサンプリングステップ数。一般的に値が高いほど品質が向上しますが、生成時間が長くなります。
- 推奨範囲：28から50
text_guidance_scale：出力がテキストプロンプトにどれだけ厳密に従うかを制御します（分類器なしガイダンス）。
- テキストから画像への生成：単純または詳細が少ないプロンプトの場合は、高い値（例：6 - 7）を使用します。複雑で非常に詳細なプロンプトの場合は、低い値（例：4）を使用します。
- 編集/合成：4 - 5程度の中程度の値が推奨されます。
image_guidance_scale：これは、最終的な画像が入力参照画像にどれだけ似るべきかを制御します。
- トレードオフ：高い値（〜2.0）は、出力を参照画像の構造とスタイルに忠実にしますが、テキストプロンプトの一部を無視する可能性があります。低い値（〜1.5）は、テキストプロンプトにより多くの影響力を与えます。
- ヒント：1.5から始めて、参照画像との一貫性が必要な場合は増やします。画像編集タスクの場合は、1.3から2.0の間に設定することをお勧めします。文脈内生成タスクの場合は、高いimage_guidance_scaleが入力画像の詳細をより多く維持し、2.5から3.0の間に設定することをお勧めします。
max_input_image_pixels：処理速度とメモリ消費を管理するために、この総ピクセル数を超える参照画像は自動的にリサイズされます。
negative_prompt：モデルに画像に表示したくないものを伝えます。
- 例：ぼやけた、低品質、テキスト、透かし
- ヒント：最適な結果を得るには、異なるネガティブプロンプトを試してみましょう。わからない場合は、空白のままにしておきます。

📚 詳細ドキュメント

ニュース

2025-06-16：Gradio と Jupyter のデモが利用可能になりました。
2025-06-16：マルチモーダル生成モデルである OmniGen2 をリリースしました。モデルの重みは huggingface でアクセスできます。

TODO

[ ] 技術レポート。
[ ] 文脈内生成ベンチマーク：OmniContext。
[ ] CPUオフロードをサポートし、推論効率を向上させる。
[ ] 訓練データとスクリプト。
[ ] データ構築パイプライン。
[ ] ComfyUIデモ（コミュニティのサポートを大いに歓迎します！）。

🔖 引用

このリポジトリや我々の研究が役に立った場合は、スターを付けて引用していただけると幸いです（OmniGen2のレポートはできるだけ早く公開する予定です）。

@article{xiao2024omnigen,
  title={Omnigen: Unified image generation},
  author={Xiao, Shitao and Wang, Yueze and Zhou, Junjie and Yuan, Huaying and Xing, Xingrun and Yan, Ruiran and Wang, Shuting and Huang, Tiejun and Liu, Zheng},
  journal={arXiv preprint arXiv:2409.11340},
  year={2024}
}