🚀 gemma-2-9b-it-SimPOモデルカード
SimPO (Simple Preference Optimization) は、嗜好最適化データセットを用いた大規模言語モデル (LLM) の学習を強化するために設計されたオフライン嗜好最適化アルゴリズムです。SimPOは、報酬関数を生成尤度に合わせ、参照モデルを必要とせず、ターゲット報酬マージンを組み込んでパフォーマンスを向上させます。詳細については、プレプリント と GitHubリポジトリ を参照してください。
🚀 クイックスタート
import torch
from transformers import pipeline
model_id = "princeton-nlp/gemma-2-9b-it-SimPO"
generator = pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda",
)
outputs = generator([{"role": "user", "content": "What's the difference between llamas and alpacas?"}],
do_sample=False,
eos_token_id=[generator.tokenizer.convert_tokens_to_ids("<end_of_turn>"), generator.tokenizer.eos_token_id],
max_new_tokens=200)
print(outputs[0]['generated_text'])
✨ 主な機能
SimPOは、嗜好最適化データセットを用いて大規模言語モデルの学習を強化します。報酬関数を生成尤度に合わせ、参照モデルを必要とせず、ターゲット報酬マージンを組み込んでパフォーマンスを向上させます。
📚 ドキュメント
モデルの詳細
モデルの説明
私たちは、google/gemma-2-9b-it を princeton-nlp/gemma2-ultrafeedback-armorm 上でSimPOの目的でファインチューニングしました。
属性 |
详情 |
開発者 |
Yu Meng, Mengzhou Xia, Danqi Chen |
モデルタイプ |
因果言語モデル |
ライセンス |
gemma |
ファインチューニング元のモデル |
google/gemma-2-9b-it |
モデルのソース
- リポジトリ: https://github.com/princeton-nlp/SimPO
- 論文: https://arxiv.org/pdf/2405.14734
学習の詳細
学習データ
私たちは、princeton-nlp/gemma2-ultrafeedback-armorm を嗜好最適化データセットとして使用しました。
学習ハイパーパラメータ
使用されたハイパーパラメータは、学習スクリプト で確認できます。
速度、サイズ、時間
google/gemma-2-9b-it を princeton-nlp/gemma2-ultrafeedback-armorm 上でファインチューニングするのに、8台のH100 GPUで約100分かかります。
評価結果
技術仕様
モデルアーキテクチャと目的
モデルアーキテクチャは、google/gemma-2-9b-it に基づいています。私たちは、プレプリント で提案されたSimPOの学習目的を使用しています。
ハードウェア
モデルの学習には、8台のH100 GPUを使用しました。
ソフトウェア
学習は、alignment-handbook ライブラリを使用して行われました。
引用
gemmaモデル
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
SimPO論文
@article{meng2024simpo,
title={{SimPO}: Simple preference optimization with a reference-free reward},
author={Meng, Yu and Xia, Mengzhou and Chen, Danqi},
journal={arXiv preprint arXiv:2405.14734},
year={2024}
}
UltraFeedback論文
@article{cui2023ultrafeedback,
title={{UltraFeedback}: Boosting language models with high-quality feedback},
author={Cui, Ganqu and Yuan, Lifan and Ding, Ning and Yao, Guanming and Zhu, Wei and Ni, Yuan and Xie, Guotong and Liu, Zhiyuan and Sun, Maosong},
journal={arXiv preprint arXiv:2310.01377},
year={2023}
}
ArmoRM論文
@article{wang2024interpretable,
title={Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts},
author={Wang, Haoxiang and Xiong, Wei and Xie, Tengyang and Zhao, Han and Zhang, Tong},
journal={arXiv preprint arXiv:2406.12845},
year={2024}
}
📄 ライセンス
このモデルはMITライセンスの下で提供されています。