🚀 新しいオフポリシー最適化手法の提案
我々は、オフポリシーの嗜好データを用いてオンポリシー学習を模倣することで、オフポリシー嗜好最適化を強化する新しい戦略を提案しています。我々の重み付き嗜好最適化(WPO)手法は、現在のポリシー下での確率に基づいて嗜好ペアに重み付けを行うことで、オフポリシーデータをオンポリシーデータにより近づけるように適応させます。この手法は、分布のギャップ問題を解決するだけでなく、追加コストをかけることなく最適化プロセスを強化します。詳細については、我々のプレプリントとリポジトリを参照してください。
✨ 主な機能
- オフポリシー嗜好最適化を強化する新しい戦略を提案
- 重み付き嗜好最適化(WPO)手法により、分布のギャップ問題を解決
- 追加コストをかけることなく最適化プロセスを強化
📦 インストール
このセクションではインストール手順に関する具体的な内容がありません。
📚 ドキュメント
モデルの説明
データ
gemma-2-9b-itは、ハイブリッドWPOによってファインチューニングされており、2種類のデータを利用しています。
- Ultrafeedbackプロンプトに基づいてオンポリシーでサンプリングされたgemmaの出力。
- Ultrafeedbackプロンプトに基づくGPT-4-turboの出力。
論文内の嗜好データ構築方法と比較して、我々はRLHFlow/ArmoRM-Llama3-8B-v0.1を使用して出力をスコアリングし、最大/最小スコアの出力を選択して嗜好ペアを形成しています。
我々はトレーニングデータをwzhouad/gemma-2-ultrafeedback-hybridで提供しています。
他のWPOモデルへのリンク
我々のWPOコレクションを確認してください。
トレーニングのハイパーパラメータ
トレーニング中に以下のハイパーパラメータが使用されました。
- learning_rate: 1e-06
- beta: 0.01
- per_device_train_batch_size: 1
- gradient_accumulation_steps: 16
- seed: 1
- num_devices: 8
- optim: adamw_torch
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.1
- num_train_epochs: 2.0
- max_length: 2048
- max_prompt_length: 1800
📄 ライセンス
このモデルはZoomソフトウェアライセンスの下でライセンスされており、非商用、教育、または学術研究目的での使用のみが許可されています。
引用
WPO
@article{zhou2024wpo,
title={WPO: Enhancing RLHF with Weighted Preference Optimization},
author={Zhou, Wenxuan and Agrawal, Ravi and Zhang, Shujian and Indurthi, Sathish Reddy and Zhao, Sanqiang and Song, Kaiqiang and Xu, Silei and Zhu, Chenguang},
journal={arXiv preprint arXiv:2406.11827},
year={2024}
}
Ultrafeedback
@article{cui2023ultrafeedback,
title={{UltraFeedback}: Boosting language models with high-quality feedback},
author={Cui, Ganqu and Yuan, Lifan and Ding, Ning and Yao, Guanming and Zhu, Wei and Ni, Yuan and Xie, Guotong and Liu, Zhiyuan and Sun, Maosong},
journal={arXiv preprint arXiv:2310.01377},
year={2023}
}
Armo-RM
@article{ArmoRM,
title={Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts},
author={Haoxiang Wang and Wei Xiong and Tengyang Xie and Han Zhao and Tong Zhang},
journal={arXiv preprint arXiv:2406.12845},
}
@inproceedings{wang2024arithmetic,
title={Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards},
author={Haoxiang Wang and Yong Lin and Wei Xiong and Rui Yang and Shizhe Diao and Shuang Qiu and Han Zhao and Tong Zhang},
year={2024},
booktitle={ACL},
}
情報テーブル
属性 |
詳細 |
ベースモデル |
google/gemma-2-9b-it |
ライブラリ名 |
transformers |
トレーニングデータ |
wzhouad/gemma-2-ultrafeedback-hybrid |
タグ |
alignment-handbook, gemma |