ReasonGen - R1オープンソース画像生成モデル - 融合推論により画像生成の論理性と品質を向上させる

ホーム

Reasongen R1

Franklin0によって開発

ReasonGen - R1は思考チェーン推論を融合した自己回帰画像生成モデルで、SFTとRLによって画像生成の論理性と品質を向上させます。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #思考チェーン画像生成 #自己回帰推論 #強化学習最適化

ダウンロード数 142

リリース時間 : 5/27/2025

モデル概要

ReasonGen - R1は2段階のフレームワークです。まず、教師付き微調整（SFT）によってモデルにテキストに基づく明示的な「思考」能力を与え、次にグループ相対ポリシー最適化（GRPO）を使用してその出力を最適化します。このモデルは画像生成前にテキストを通じて推論し、オブジェクトのレイアウト、スタイル、シーンの組み合わせの制御可能な計画を実現します。

モデル特徴

思考チェーン推論

テキスト推論によって画像生成を明示的に計画し、論理性と制御性を向上させます。

2段階訓練フレームワーク

まず教師付き微調整（SFT）で推論能力を学習し、次に強化学習（RL）で生成品質を最適化します。

グループ相対ポリシー最適化（GRPO）

事前学習されたビジョン - 言語モデルの報酬信号を使用して生成品質を評価し最適化します。

制御可能な画像生成

オブジェクトのレイアウト、スタイル、シーンの組み合わせを正確に計画し制御できます。

モデル能力

テキストから画像への生成

推論に基づく画像計画

制御可能な画像合成

多スタイル画像生成

使用事例

クリエイティブデザイン

コンセプトアート生成

詳細なテキスト記述に基づいて高品質のコンセプトアート作品を生成します。

論理的で詳細に富んだコンセプト図を生成します。

広告デザイン

製品の説明に基づいて自動的に広告画像を生成します。

スタイルが統一され、マーケティングニーズに合った広告図を生成します。

教育

教材生成

授業内容に基づいて自動的に挿絵を生成します。

抽象的な概念を正確に表現する視覚教材を生成します。

🚀 ReasonGen-R1: 自己回帰型画像生成モデルにおける思考連鎖推論

ReasonGen-R1は、思考連鎖推論を組み込んだ自己回帰型画像生成モデルです。論文「ReasonGen-R1: Cot for Autoregressive Image generation models through SFT and RL」の公式チェックポイントです。

ウェブサイト: https://aka.ms/reasongen

コード: https://github.com/Franklin-Zhang0/Image-RL

🚀 クイックスタート

インストール

必要な依存関係をインストールするには、以下のコマンドを実行してください。

cd ~
mkdir project
cd project
conda create -n image_rl python==3.12 -y
conda activate image_rl
pip3 install torch==2.6.0 torchvision --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
git clone https://github.com/Franklin-Zhang0/ReasonGen-R1.git
cd ReasonGen-R1
pip install -r requirements.txt
pip install -e .
pip install -e ./Janus

評価環境のインストール (オプション)

評価コードを実行する場合は、以下のコマンドを実行して評価環境をインストールできます。 ```shell # Geneval cd ~ mkdir project cd project git clone https://github.com/djghosh13/geneval.git cd geneval conda deactivate conda create -n geneval python=3.9 -y conda activate geneval pip install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pip install mmcv-full==1.7.0 -f https://download.openmmlab.com/mmcv/dist/cu117/torch1.13/index.html pip install mmengine==0.7.3

pip install pandas pip install numpy==1.23.1

pip install open-clip-torch pip install clip-benchmark

git clone https://github.com/open-mmlab/mmdetection.git cd mmdetection; git checkout 2.x pip install -v -e .

cd ../ bash ./evaluation/download_models.sh "./models"

```shell
# DPG
cd ~
cd project
git clone https://github.com/TencentQQGYLab/ELLA.git
cd ELLA
cp ~/project/ReasonGen-R1/benchmark/requirements-for-dpg_bench.txt .
conda deactivate
conda create -n dpg_test python=3.9 -y
conda activate dpg_test
conda install conda-forge::fairseq -y
pip install -r requirements-for-dpg_bench.txt

評価環境が設定されたら、以下のコマンドを使用して評価を実行できます。

bash -i benchmark/geneval.sh
bash -i benchmark/dpg_eval.sh

推論

ReasonGen-R1モデルを使用して推論を行うには、以下のコマンドを使用してください。

python ReasonGen-R1/Janus/cot_generate_inference.py

SFTトレーニング

Janus-Pro-7BモデルからReasonGen-R1-SFT-200kデータセットでSFTモデルをトレーニングするには、以下のコマンドを使用してください。

bash ReasonGen-R1/examples/janus_sft.sh

RLトレーニング

ReasonGen-R1-SFTモデルからRLモデルをトレーニングするには、以下のコマンドを使用してください。

bash ReasonGen-R1/Janus/janus_rl.py

✨ 主な機能

思考連鎖（CoT）推論と強化学習（RL）は自然言語処理（NLP）において大きな進歩をもたらしましたが、生成型ビジョンモデルへの統合はまだ十分に研究されていません。私たちはReasonGen-R1を導入します。これは2段階のフレームワークで、まず新しく生成された推論データセットを用いた教師あり微調整（SFT）により、自己回帰型画像生成器に明示的なテキストベースの「思考」スキルを付与し、次にGroup Relative Policy Optimization（GRPO）を使用して出力を改良します。モデルが画像を生成する前にテキストを通じて推論できるようにするために、視覚的なプロンプトとペアになったモデル生成の推論コーパスを自動生成して公開しています。これにより、オブジェクトのレイアウト、スタイル、シーンの構成を制御した計画が可能になります。 GRPOアルゴリズムは、事前学習されたビジョン - 言語モデルからの報酬信号を使用して全体的な視覚品質を評価し、各更新でポリシーを最適化します。 Geneval、DPG、およびT2Iベンチマークでの評価により、ReasonGen-R1は強力なベースラインや従来の最先端モデルを一貫して上回ることが示されています。私たちは生成した推論データセットとトレーニングコードをオープンソース化し、テキストベースの推論駆動型画像生成のさらなる進歩を加速させます。

📦 インストール

Huggingface

モデル	ダウンロード
ReasonGen-R1	🤗 Hugging Face
ReasonGen-R1-SFT-Only	🤗 Hugging Face

データセット	ダウンロード
ReasonGen-R1-Datasets	🤗 Hugging Face

📚 ドキュメント

モデル情報

属性	詳情
ベースモデル	deepseek-ai/Janus-Pro-7B
データセット	Franklin0/ReasonGen-R1-RL-Geneval-12k、Franklin0/ReasonGen-R1-RL-DPG-5k、Franklin0/ReasonGen-R1-RL-T2I-11k
ライブラリ名	transformers
ライセンス	apache-2.0
パイプラインタグ	テキストから画像への変換

📄 ライセンス

このプロジェクトは、Apache 2.0ライセンスの下で公開されています。

謝辞

私たちのリポジトリは、Verlをベースに構築されています。ここで感謝の意を表します。

引用

@misc{zhang2025reasongenr1cotautoregressiveimage,
      title={ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL}, 
      author={Yu Zhang and Yunqi Li and Yifan Yang and Rui Wang and Yuqing Yang and Dai Qi and Jianmin Bao and Dongdong Chen and Chong Luo and Lili Qiu},
      year={2025},
      eprint={2505.24875},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2505.24875}, 
}