🚀 獎勵模型
本獎勵模型基於基礎模型 google/gemma-2b-it 訓練而來,旨在為相關任務提供獎勵評估。通過在多個數據集上進行訓練和優化,該模型能夠對不同的文本進行有效的獎勵打分,為後續的強化學習等任務提供有力支持。
🚀 快速開始
模型使用示例
from transformers import AutoTokenizer, pipeline
rm_tokenizer = AutoTokenizer.from_pretrained("weqweasdas/RM-Gemma-2B")
device = 0
rm_pipe = pipeline(
"sentiment-analysis",
model="weqweasdas/RM-Gemma-2B",
device=device,
tokenizer=rm_tokenizer,
model_kwargs={"torch_dtype": torch.bfloat16}
)
pipe_kwargs = {
"return_all_scores": True,
"function_to_apply": "none",
"batch_size": 1
}
chat = [
{"role": "user", "content": "Hello, how are you?"},
{"role": "assistant", "content": "I'm doing great. How can I help you today?"},
{"role": "user", "content": "I'd like to show off how chat templating works!"},
]
test_texts = [tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(tokenizer.bos_token, "")]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]
✨ 主要特性
- 多數據集訓練:該獎勵模型在多個數據集上進行訓練,包括 HH-RLHF、SHP、UltraFeedback 等,能夠適應不同類型的數據和任務需求。
- 數據篩選與清洗:在訓練過程中,對各個數據集進行了細緻的數據篩選和清洗,確保訓練數據的質量和有效性。
- 明確的訓練參數:模型訓練一個 epoch,學習率為 1e - 5,批量大小為 256,並採用餘弦學習率衰減和 0.03 的熱身比例。
📦 安裝指南
文檔未提供具體安裝步驟,可參考訓練腳本倉庫 https://github.com/WeiXiongUST/RLHF-Reward-Modeling 進行安裝。
📚 詳細文檔
模型詳情
數據集預處理
模型在以下數據集的混合數據上進行訓練:
總共有 250K 個比較對,具體的數據選擇和清洗策略如下:
- HH - RLHF:使用所有基礎、拒絕採樣和在線子集,但刪除 chosen == rejected 的樣本,最終得到 115547 個樣本。
- SHP:僅使用得分比 > 2 的樣本,對於每個提示,僅取 1 個比較對,最終得到 55916 個樣本。
- Ultrafeedback:類似於 UltraFeedback - Binarized,使用細粒度得分而非總體得分對樣本進行排序。同時,對於每個提示,取最佳樣本與剩餘樣本中隨機選擇的一個進行比較。最後,刪除得分相等的選定對,最終得到 62793 個樣本。
- HelpSteer:使用有用性和正確性的平均值對樣本進行排序。同時,取最佳樣本與剩餘樣本中隨機選擇的一個進行比較。最後,刪除得分相等的選定對,最終得到 8206 個樣本。
- Capybara:刪除 chosen 和 rejected 樣本評級相同的對,最終得到 7562 個樣本。
- Orca:刪除 chosen 和 rejected 樣本評級相同的對,最終得到 6405 個樣本。
訓練
模型訓練一個 epoch,學習率為 1e - 5,批量大小為 256,採用餘弦學習率衰減,熱身比例為 0.03。訓練曲線如下:

模型使用
模型可用於對文本進行獎勵評估,具體使用示例見“快速開始”部分。
評估結果
收集現有的偏好數據集作為基準來評估得到的獎勵模型。對於 MT - Bench 數據集(lmsys/mt_bench_human_judgments),刪除比較結果為平局的樣本。Alpaca 數據來自 Here。
模型/測試集 |
HH - RLHF - 有用性 |
SHP |
Helpsteer 有用性 + 正確性 |
Helpsteer 全部 |
MT Bench 人工 |
MT Bench GPT4 |
Alpaca 人工 |
Alpaca GPT4 |
Alpca 人工交叉 |
UltraRM - 13B |
0.71 |
0.73 |
0.72 |
0.72 |
0.78 |
0.9 |
0.65 |
0.83 |
0.62 |
Pair - RM |
0.65 |
0.56 |
0.62 |
0.6 |
0.74 |
0.82 |
0.62 |
0.75 |
0.59 |
RM - Gemma - 2B |
0.68 |
0.73 |
0.68 |
0.72 |
0.77 |
0.87 |
0.63 |
0.78 |
0.59 |
🔧 技術細節
模型參考
獎勵模型可用於拒絕採樣微調,相關論文引用如下:
@article{dong2023raft,
title={Raft: Reward ranked finetuning for generative foundation model alignment},
author={Dong, Hanze and Xiong, Wei and Goyal, Deepanshu and Pan, Rui and Diao, Shizhe and Zhang, Jipeng and Shum, Kashun and Zhang, Tong},
journal={arXiv preprint arXiv:2304.06767},
year={2023}
}
模型元數據參考
可參考規範 https://github.com/huggingface/hub-docs/blob/main/modelcard.md?plain=1,文檔/指南見 https://huggingface.co/docs/hub/model-cards。
聯繫方式
如果對該獎勵模型或獎勵建模有任何疑問,請發送郵件至 wx13@illinois.edu。