模型简介
模型特点
模型能力
使用案例
🚀 Llama-3-8B-SFR-Iterative-DPO-R
我们发布了一款同类中最先进的指令模型 Llama-3-8B-SFR-Iterative-DPO-R。该模型在三个广泛使用的指令模型基准测试(Alpaca-Eval-V2、MT-Bench、Chat-Arena-Hard)中,表现优于所有相近规模的模型(如 LLaMA-3-8B-it)、大多数大型开源模型(如 Mixtral-8x7B-it),以及强大的专有模型(如 GPT-3.5-turbo-0613)。此模型使用开源数据集进行训练,未使用额外的人工或 GPT4 标注数据。
🚀 快速开始
你可以参考以下代码示例来使用该模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
messages = [
{"role": "user", "content": "I'm trying to teach myself to have nicer handwriting. Can you help?"},
]
model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = model_inputs.to(device)
model.to(device)
output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])
✨ 主要特性
- 性能卓越:在多个基准测试中,超越相近规模模型、大型开源模型以及部分专有模型。
- 训练成本低:基于 DPO 的训练方法,相比基于 PPO 的方法,训练和调优成本更低、更简单。
- 有效缓解分布偏移:在线组件有效缓解了策略优化过程中的分布偏移问题。
📦 模型发布
🔧 训练方法
我们为大语言模型的指令训练开发了一种简单高效的在线 RLHF 方法。该方法基于 DPO,与基于 PPO 的方法相比,训练和调优成本更低、更简单。与广泛使用的离线 DPO 不同,我们方法中的在线组件能有效缓解策略优化过程中的分布偏移问题。详细内容请参考我们附带的技术报告。
📚 详细文档
对话基准测试
模型 | 规模 | 方法 | LC Alpaca-Eval-V2 | MT-Bench | Chat-Arena-Hard |
---|---|---|---|---|---|
小型开源模型 | |||||
Gemma-7B-it | 7B | SFT | 10.4 | 6.38 | 7.5 |
Zephyr-7B-beta | 7B | Vanilla DPO | 13.1 | 7.34 | - |
Mistral-7B-v0.2-it | 7B | SFT | 17.1 | 7.51 | 12.6 |
Open-Chat-0106 | 7B | SFT | 15.6 | 7.8 | - |
Starling-7B-beta | 7B | PPO | 25.8 | 8.12 | 23.0 |
LLaMA-3-8B-it | 8B | RS+DPO+PPO | 22.9 | 8.16 | 20.6 |
我们的模型 | |||||
我们的模型(SFT 基线) | 8B | SFT | 10.2 | 7.69 | 5.6 |
我们的模型(DPO 基线) | 8B | Vanilla DPO | 22.5 | 8.17 | 22.4 |
我们的模型(在线 RLHF) | 8B | 迭代 DPO | 31.3 | 8.46 | 29.1 |
大型开源模型 | |||||
Vicuna-33b-v1.3 | 33B | SFT | 17.6 | 7.12 | 8.6 |
Yi-34B-Chat | 34B | SFT | 27.2 | - | 23.1 |
Mixtral-8x7B-it | 45B* | SFT | 23.7 | 8.30 | 23.4 |
Tulu-2-DPO-70B | 70B | Vanilla DPO | 21.2 | 7.89 | 15.0 |
LLaMA-3-70B-it | 70B | RS+DPO+PPO | 34.4 | 8.95 | 41.1 |
Mixtral-8x22B-it | 141B* | SFT | 30.9 | 8.66 | 36.4 |
专有模型 | |||||
GPT-3.5-turbo-1106 | - | - | 19.3 | 8.35 | 18.9 |
GPT-3.5-turbo-0613 | - | - | 22.7 | 8.39 | 24.8 |
GPT-4-0613 | - | - | 30.2 | 9.18 | 37.9 |
Claude-3-Opus | - | - | 40.5 | 9.00 | 60.4 |
GPT-4 Turbo (04/09) | - | - | 55.0 | - | 82.6 |
学术基准测试
模型 | 规模 | 方法 | GSM-8K | MMLU | HumanEval | TruthfulQA | ARC | MBPP |
---|---|---|---|---|---|---|---|---|
LLaMA-3-8B-it | 8B | RS+DPO+PPO | 79.6 | 66.0 | 61.6 | 43.9 | 59.5 | 61.1 |
我们的模型(SFT 基线) | 8B | SFT | 74.2 | 64.7 | 65.2 | 53.4 | 61.4 | 62.3 |
我们的模型(DPO 基线) | 8B | Vanilla DPO | 79.8 | 64.5 | 63.4 | 61.8 | 65.2 | 60.3 |
我们的模型(迭代 RLHF) | 8B | 迭代 DPO | 80.7 | 65.3 | 64.6 | 60.4 | 64.3 | 60.8 |
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
messages = [
{"role": "user", "content": "I'm trying to teach myself to have nicer handwriting. Can you help?"},
]
model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = model_inputs.to(device)
model.to(device)
output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])
⚠️ 局限性
Llama-3-8B-SFR-Iterative-DPO-R 是 Salesforce 公司 RLHF 项目的研究模型。虽然我们在模型对齐过程中充分考虑了安全和道德因素,但模型仍有可能生成冒犯性或不道德的内容,尤其是在对抗性条件下。我们致力于持续改进模型,以降低此类风险,并鼓励用户负责任地使用该模型。
📄 许可证
该模型使用 llama3 许可证。
📖 引用
如果您觉得我们的模型有用,请引用我们的论文:
@misc{dong2024rlhf,
title={RLHF Workflow: From Reward Modeling to Online RLHF},
author={Hanze Dong* and Wei Xiong* and Bo Pang* and Haoxiang Wang* and Han Zhao and Yingbo Zhou and Nan Jiang and Doyen Sahoo and Caiming Xiong and Tong Zhang},
year={2024},
eprint={2405.07863},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{xiong2024iterative,
title={Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint},
author={Wei Xiong and Hanze Dong and Chenlu Ye and Ziqi Wang and Han Zhong and Heng Ji and Nan Jiang and Tong Zhang},
year={2024},
eprint={2312.11456},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
⚖️ 伦理声明
本模型仅用于支持学术研究。我们的模型、数据集和代码并非专门为所有下游应用场景设计或评估。我们强烈建议用户在部署模型之前,评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性,遵守适用法律,并在选择用例时采用最佳实践,特别是在高风险场景中,错误或不当使用可能会对人们的生活、权利或安全产生重大影响。有关用例的更多指导,请参考我们的标准 AUP 和 AI AUP。



