FsfairX-LLaMA3-RM-v0.1开源奖励模型 - 支持多方法的RLHF奖励建模

首页

Fsfairx LLaMA3 RM V0.1

由 sfairXC 开发

基于Meta-Llama-3-8B-Instruct训练的奖励模型，用于RLHF流程中的奖励建模，支持PPO、迭代SFT和迭代DPO方法。

大型语言模型

Transformers

#RLHF奖励建模 #开源SOTA #多轮对话评估

下载量 4,157

发布时间 : 4/20/2024

模型简介

该模型是一个用于强化学习人类反馈（RLHF）流程的奖励模型，能够评估对话质量并提供奖励信号，帮助优化语言模型的生成结果。

模型特点

高性能奖励建模

在Reward-Bench榜单上表现优异，是目前最先进的开源奖励模型之一。

支持多种RLHF方法

可用于PPO、迭代SFT和迭代DPO等多种强化学习人类反馈方法。

基于Llama-3架构

基于Meta-Llama-3-8B-Instruct模型微调，继承了其强大的语言理解能力。

模型能力

对话质量评估

奖励信号生成

强化学习反馈

使用案例

语言模型优化

RLHF流程中的奖励建模

在强化学习人类反馈流程中作为奖励模型使用，指导语言模型优化。

可显著提升语言模型的对话质量和安全性

对话系统评估

对话质量评分

对对话系统的响应进行质量评估和打分。

🚀 RLHF奖励模型项目

本项目提供的奖励函数可用于基于人类反馈的强化学习（RLHF），包括近端策略优化（PPO）、迭代监督微调（iterative SFT）和迭代直接偏好优化（iterative DPO），为相关研究和应用提供了有力支持。

🚀 快速开始

本奖励函数可用于多种基于人类反馈的强化学习方法，如PPO、迭代SFT和迭代DPO。

📄 许可证

本项目的许可证派生自 PKU-Alignment/PKU-SafeRLHF-30K，具体采用 CC BY-NC 4.0 许可协议。

✨ 主要特性

适用多种RLHF方法：奖励函数可用于PPO、迭代SFT和迭代DPO等多种基于人类反馈的强化学习方法。
SOTA表现：该奖励模型在Reward-Bench上是截至2024年4月20日的最优开源奖励模型（SOTA）。

📦 安装指南

基础模型

本项目使用的基础模型是 meta-llama/Meta-Llama-3-8B-Instruct。

训练脚本

我们使用位于 https://github.com/WeiXiongUST/RLHF-Reward-Modeling 的训练脚本进行训练。

💻 使用示例

基础用法

from transformers import AutoTokenizer, pipeline
rm_tokenizer = AutoTokenizer.from_pretrained("sfairXC/FsfairX-LLaMA3-RM-v0.1")
device = 0 # accelerator.device
rm_pipe = pipeline(
    "sentiment-analysis",
    model="sfairXC/FsfairX-LLaMA3-RM-v0.1",
    #device="auto",
    device=device,
    tokenizer=rm_tokenizer,
    model_kwargs={"torch_dtype": torch.bfloat16}
)

pipe_kwargs = {
    "return_all_scores": True,
    "function_to_apply": "none",
    "batch_size": 1
}

chat = [
 {"role": "user", "content": "Hello, how are you?"},
 {"role": "assistant", "content": "I'm doing great. How can I help you today?"},
 {"role": "user", "content": "I'd like to show off how chat templating works!"},
]

test_texts = [rm_tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(rm_tokenizer.bos_token, "")]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]

📚 详细文档

论文信息

论文标题：RLHF Workflow: From Reward Modeling to Online RLHF（发表于TMLR, 2024）
作者：Hanze Dong*, Wei Xiong*, Bo Pang*, Haoxiang Wang*, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

代码仓库

代码仓库地址：https://github.com/RLHFlow/RLHF-Reward-Modeling/

实验结果

该奖励模型在Reward-Bench上的表现如下：

指标	得分
对话（Chat）	99.44
困难对话（Chat Hard）	65.13
安全性（Safety）	88.76
推理能力（Reasoning）	88.3

📖 参考文献

如果您发现本仓库的内容对您的工作有帮助，请考虑引用以下文献：

@article{dong2023raft,
  title={Raft: Reward ranked finetuning for generative foundation model alignment},
  author={Dong, Hanze and Xiong, Wei and Goyal, Deepanshu and Pan, Rui and Diao, Shizhe and Zhang, Jipeng and Shum, Kashun and Zhang, Tong},
  journal={arXiv preprint arXiv:2304.06767},
  year={2023}
}

@misc{xiong2024iterative,
      title={Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint}, 
      author={Wei Xiong and Hanze Dong and Chenlu Ye and Ziqi Wang and Han Zhong and Heng Ji and Nan Jiang and Tong Zhang},
      year={2024},
      eprint={2312.11456},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}