RM-Gemma-2B开源奖励模型 - 免费评估文本生成质量，提升内容水平

首页

RM Gemma 2B

由 weqweasdas 开发

基于google/gemma-2b-it训练的奖励模型，用于评估文本生成质量

大型语言模型

Transformers

#RLHF奖励模型 #多数据集融合 #对话质量评估

下载量 2,618

发布时间 : 2/25/2024

模型简介

本奖励模型基于Gemma-2B基础模型训练而成，专门用于评估和排序不同文本生成结果的质量，适用于强化学习人类反馈(RLHF)场景。

模型特点

多源数据集训练

整合了HH-RLHF、SHP、UltraFeedback等6个高质量数据集，总计25万组对比数据

严格数据清洗

采用多种策略确保对比数据的质量，如保留显著差异样本、删除等分样本等

高效训练配置

采用学习率1e-5、批量大小256、余弦学习率衰减等优化训练过程

模型能力

文本质量评分

生成结果排序

对话响应评估

强化学习反馈

使用案例

强化学习

拒绝采样微调

用于RLHF流程中的拒绝采样阶段，筛选高质量生成结果

可直接用于RAFT(奖励排序微调)算法

对话系统

聊天机器人响应评估

评估不同聊天机器人响应的质量，选择最佳回复

在MT Bench等基准测试中表现良好

🚀 奖励模型

本奖励模型基于基础模型 google/gemma-2b-it 训练而来，旨在为相关任务提供奖励评估。通过在多个数据集上进行训练和优化，该模型能够对不同的文本进行有效的奖励打分，为后续的强化学习等任务提供有力支持。

🚀 快速开始

模型使用示例

from transformers import AutoTokenizer, pipeline
rm_tokenizer = AutoTokenizer.from_pretrained("weqweasdas/RM-Gemma-2B")
device = 0 # accelerator.device
rm_pipe = pipeline(
    "sentiment-analysis",
    model="weqweasdas/RM-Gemma-2B",
    #device="auto",
    device=device,
    tokenizer=rm_tokenizer,
    model_kwargs={"torch_dtype": torch.bfloat16}
)

pipe_kwargs = {
    "return_all_scores": True,
    "function_to_apply": "none",
    "batch_size": 1
}

chat = [
 {"role": "user", "content": "Hello, how are you?"},
 {"role": "assistant", "content": "I'm doing great. How can I help you today?"},
 {"role": "user", "content": "I'd like to show off how chat templating works!"},
]

test_texts = [tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(tokenizer.bos_token, "")]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]

✨ 主要特性

多数据集训练：该奖励模型在多个数据集上进行训练，包括 HH-RLHF、SHP、UltraFeedback 等，能够适应不同类型的数据和任务需求。
数据筛选与清洗：在训练过程中，对各个数据集进行了细致的数据筛选和清洗，确保训练数据的质量和有效性。
明确的训练参数：模型训练一个 epoch，学习率为 1e - 5，批量大小为 256，并采用余弦学习率衰减和 0.03 的热身比例。

📦 安装指南

文档未提供具体安装步骤，可参考训练脚本仓库 https://github.com/WeiXiongUST/RLHF-Reward-Modeling 进行安装。

📚 详细文档

模型详情

数据集预处理

模型在以下数据集的混合数据上进行训练：

总共有 250K 个比较对，具体的数据选择和清洗策略如下：

HH - RLHF：使用所有基础、拒绝采样和在线子集，但删除 chosen == rejected 的样本，最终得到 115547 个样本。
SHP：仅使用得分比 > 2 的样本，对于每个提示，仅取 1 个比较对，最终得到 55916 个样本。
Ultrafeedback：类似于 UltraFeedback - Binarized，使用细粒度得分而非总体得分对样本进行排序。同时，对于每个提示，取最佳样本与剩余样本中随机选择的一个进行比较。最后，删除得分相等的选定对，最终得到 62793 个样本。
HelpSteer：使用有用性和正确性的平均值对样本进行排序。同时，取最佳样本与剩余样本中随机选择的一个进行比较。最后，删除得分相等的选定对，最终得到 8206 个样本。
Capybara：删除 chosen 和 rejected 样本评级相同的对，最终得到 7562 个样本。
Orca：删除 chosen 和 rejected 样本评级相同的对，最终得到 6405 个样本。

训练

模型训练一个 epoch，学习率为 1e - 5，批量大小为 256，采用余弦学习率衰减，热身比例为 0.03。训练曲线如下：

Training Loss

模型使用

模型可用于对文本进行奖励评估，具体使用示例见“快速开始”部分。

评估结果

收集现有的偏好数据集作为基准来评估得到的奖励模型。对于 MT - Bench 数据集（lmsys/mt_bench_human_judgments），删除比较结果为平局的样本。Alpaca 数据来自 Here。

模型/测试集	HH - RLHF - 有用性	SHP	Helpsteer 有用性 + 正确性	Helpsteer 全部	MT Bench 人工	MT Bench GPT4	Alpaca 人工	Alpaca GPT4	Alpca 人工交叉
UltraRM - 13B	0.71	0.73	0.72	0.72	0.78	0.9	0.65	0.83	0.62
Pair - RM	0.65	0.56	0.62	0.6	0.74	0.82	0.62	0.75	0.59
RM - Gemma - 2B	0.68	0.73	0.68	0.72	0.77	0.87	0.63	0.78	0.59

🔧 技术细节

模型参考

奖励模型可用于拒绝采样微调，相关论文引用如下：

@article{dong2023raft,
  title={Raft: Reward ranked finetuning for generative foundation model alignment},
  author={Dong, Hanze and Xiong, Wei and Goyal, Deepanshu and Pan, Rui and Diao, Shizhe and Zhang, Jipeng and Shum, Kashun and Zhang, Tong},
  journal={arXiv preprint arXiv:2304.06767},
  year={2023}
}