🚀 ReasonGen-R1: 自己回帰型画像生成モデルにおける思考連鎖推論
ReasonGen-R1は、思考連鎖推論を組み込んだ自己回帰型画像生成モデルです。論文「ReasonGen-R1: Cot for Autoregressive Image generation models through SFT and RL」の公式チェックポイントです。
ウェブサイト: https://aka.ms/reasongen
コード: https://github.com/Franklin-Zhang0/Image-RL
🚀 クイックスタート
インストール
必要な依存関係をインストールするには、以下のコマンドを実行してください。
cd ~
mkdir project
cd project
conda create -n image_rl python==3.12 -y
conda activate image_rl
pip3 install torch==2.6.0 torchvision --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
git clone https://github.com/Franklin-Zhang0/ReasonGen-R1.git
cd ReasonGen-R1
pip install -r requirements.txt
pip install -e .
pip install -e ./Janus
評価環境のインストール (オプション)
評価コードを実行する場合は、以下のコマンドを実行して評価環境をインストールできます。
```shell
# Geneval
cd ~
mkdir project
cd project
git clone https://github.com/djghosh13/geneval.git
cd geneval
conda deactivate
conda create -n geneval python=3.9 -y
conda activate geneval
pip install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1
pip install mmcv-full==1.7.0 -f https://download.openmmlab.com/mmcv/dist/cu117/torch1.13/index.html
pip install mmengine==0.7.3
pip install pandas
pip install numpy==1.23.1
pip install open-clip-torch
pip install clip-benchmark
git clone https://github.com/open-mmlab/mmdetection.git
cd mmdetection; git checkout 2.x
pip install -v -e .
cd ../
bash ./evaluation/download_models.sh "./models"
```shell
# DPG
cd ~
cd project
git clone https://github.com/TencentQQGYLab/ELLA.git
cd ELLA
cp ~/project/ReasonGen-R1/benchmark/requirements-for-dpg_bench.txt .
conda deactivate
conda create -n dpg_test python=3.9 -y
conda activate dpg_test
conda install conda-forge::fairseq -y
pip install -r requirements-for-dpg_bench.txt
評価環境が設定されたら、以下のコマンドを使用して評価を実行できます。
bash -i benchmark/geneval.sh
bash -i benchmark/dpg_eval.sh
推論
ReasonGen-R1モデルを使用して推論を行うには、以下のコマンドを使用してください。
python ReasonGen-R1/Janus/cot_generate_inference.py
SFTトレーニング
Janus-Pro-7BモデルからReasonGen-R1-SFT-200kデータセットでSFTモデルをトレーニングするには、以下のコマンドを使用してください。
bash ReasonGen-R1/examples/janus_sft.sh
RLトレーニング
ReasonGen-R1-SFTモデルからRLモデルをトレーニングするには、以下のコマンドを使用してください。
bash ReasonGen-R1/Janus/janus_rl.py
✨ 主な機能
思考連鎖(CoT)推論と強化学習(RL)は自然言語処理(NLP)において大きな進歩をもたらしましたが、生成型ビジョンモデルへの統合はまだ十分に研究されていません。私たちはReasonGen-R1を導入します。これは2段階のフレームワークで、まず新しく生成された推論データセットを用いた教師あり微調整(SFT)により、自己回帰型画像生成器に明示的なテキストベースの「思考」スキルを付与し、次にGroup Relative Policy Optimization(GRPO)を使用して出力を改良します。
モデルが画像を生成する前にテキストを通じて推論できるようにするために、視覚的なプロンプトとペアになったモデル生成の推論コーパスを自動生成して公開しています。これにより、オブジェクトのレイアウト、スタイル、シーンの構成を制御した計画が可能になります。
GRPOアルゴリズムは、事前学習されたビジョン - 言語モデルからの報酬信号を使用して全体的な視覚品質を評価し、各更新でポリシーを最適化します。
Geneval、DPG、およびT2Iベンチマークでの評価により、ReasonGen-R1は強力なベースラインや従来の最先端モデルを一貫して上回ることが示されています。私たちは生成した推論データセットとトレーニングコードをオープンソース化し、テキストベースの推論駆動型画像生成のさらなる進歩を加速させます。
📦 インストール
Huggingface
📚 ドキュメント
モデル情報
属性 |
詳情 |
ベースモデル |
deepseek-ai/Janus-Pro-7B |
データセット |
Franklin0/ReasonGen-R1-RL-Geneval-12k、Franklin0/ReasonGen-R1-RL-DPG-5k、Franklin0/ReasonGen-R1-RL-T2I-11k |
ライブラリ名 |
transformers |
ライセンス |
apache-2.0 |
パイプラインタグ |
テキストから画像への変換 |
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下で公開されています。
謝辞
私たちのリポジトリは、Verlをベースに構築されています。ここで感謝の意を表します。
引用
@misc{zhang2025reasongenr1cotautoregressiveimage,
title={ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL},
author={Yu Zhang and Yunqi Li and Yifan Yang and Rui Wang and Yuqing Yang and Dai Qi and Jianmin Bao and Dongdong Chen and Chong Luo and Lili Qiu},
year={2025},
eprint={2505.24875},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2505.24875},
}