🚀 奖励模型
本奖励模型基于基础模型 google/gemma-2b-it 训练而来,旨在为相关任务提供奖励评估。通过在多个数据集上进行训练和优化,该模型能够对不同的文本进行有效的奖励打分,为后续的强化学习等任务提供有力支持。
🚀 快速开始
模型使用示例
from transformers import AutoTokenizer, pipeline
rm_tokenizer = AutoTokenizer.from_pretrained("weqweasdas/RM-Gemma-2B")
device = 0
rm_pipe = pipeline(
"sentiment-analysis",
model="weqweasdas/RM-Gemma-2B",
device=device,
tokenizer=rm_tokenizer,
model_kwargs={"torch_dtype": torch.bfloat16}
)
pipe_kwargs = {
"return_all_scores": True,
"function_to_apply": "none",
"batch_size": 1
}
chat = [
{"role": "user", "content": "Hello, how are you?"},
{"role": "assistant", "content": "I'm doing great. How can I help you today?"},
{"role": "user", "content": "I'd like to show off how chat templating works!"},
]
test_texts = [tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(tokenizer.bos_token, "")]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]
✨ 主要特性
- 多数据集训练:该奖励模型在多个数据集上进行训练,包括 HH-RLHF、SHP、UltraFeedback 等,能够适应不同类型的数据和任务需求。
- 数据筛选与清洗:在训练过程中,对各个数据集进行了细致的数据筛选和清洗,确保训练数据的质量和有效性。
- 明确的训练参数:模型训练一个 epoch,学习率为 1e - 5,批量大小为 256,并采用余弦学习率衰减和 0.03 的热身比例。
📦 安装指南
文档未提供具体安装步骤,可参考训练脚本仓库 https://github.com/WeiXiongUST/RLHF-Reward-Modeling 进行安装。
📚 详细文档
模型详情
数据集预处理
模型在以下数据集的混合数据上进行训练:
总共有 250K 个比较对,具体的数据选择和清洗策略如下:
- HH - RLHF:使用所有基础、拒绝采样和在线子集,但删除 chosen == rejected 的样本,最终得到 115547 个样本。
- SHP:仅使用得分比 > 2 的样本,对于每个提示,仅取 1 个比较对,最终得到 55916 个样本。
- Ultrafeedback:类似于 UltraFeedback - Binarized,使用细粒度得分而非总体得分对样本进行排序。同时,对于每个提示,取最佳样本与剩余样本中随机选择的一个进行比较。最后,删除得分相等的选定对,最终得到 62793 个样本。
- HelpSteer:使用有用性和正确性的平均值对样本进行排序。同时,取最佳样本与剩余样本中随机选择的一个进行比较。最后,删除得分相等的选定对,最终得到 8206 个样本。
- Capybara:删除 chosen 和 rejected 样本评级相同的对,最终得到 7562 个样本。
- Orca:删除 chosen 和 rejected 样本评级相同的对,最终得到 6405 个样本。
训练
模型训练一个 epoch,学习率为 1e - 5,批量大小为 256,采用余弦学习率衰减,热身比例为 0.03。训练曲线如下:

模型使用
模型可用于对文本进行奖励评估,具体使用示例见“快速开始”部分。
评估结果
收集现有的偏好数据集作为基准来评估得到的奖励模型。对于 MT - Bench 数据集(lmsys/mt_bench_human_judgments),删除比较结果为平局的样本。Alpaca 数据来自 Here。
模型/测试集 |
HH - RLHF - 有用性 |
SHP |
Helpsteer 有用性 + 正确性 |
Helpsteer 全部 |
MT Bench 人工 |
MT Bench GPT4 |
Alpaca 人工 |
Alpaca GPT4 |
Alpca 人工交叉 |
UltraRM - 13B |
0.71 |
0.73 |
0.72 |
0.72 |
0.78 |
0.9 |
0.65 |
0.83 |
0.62 |
Pair - RM |
0.65 |
0.56 |
0.62 |
0.6 |
0.74 |
0.82 |
0.62 |
0.75 |
0.59 |
RM - Gemma - 2B |
0.68 |
0.73 |
0.68 |
0.72 |
0.77 |
0.87 |
0.63 |
0.78 |
0.59 |
🔧 技术细节
模型参考
奖励模型可用于拒绝采样微调,相关论文引用如下:
@article{dong2023raft,
title={Raft: Reward ranked finetuning for generative foundation model alignment},
author={Dong, Hanze and Xiong, Wei and Goyal, Deepanshu and Pan, Rui and Diao, Shizhe and Zhang, Jipeng and Shum, Kashun and Zhang, Tong},
journal={arXiv preprint arXiv:2304.06767},
year={2023}
}
模型元数据参考
可参考规范 https://github.com/huggingface/hub-docs/blob/main/modelcard.md?plain=1,文档/指南见 https://huggingface.co/docs/hub/model-cards。
联系方式
如果对该奖励模型或奖励建模有任何疑问,请发送邮件至 wx13@illinois.edu。