LLaMA-3-8B-SFR-Iterative-DPO-R开源模型 - 指令优化多项评测超越同规模模型

首页

Llama 3 8B SFR Iterative DPO R

由 Salesforce 开发

基于Llama-3-8B的指令优化模型，采用迭代式DPO强化学习训练，在多项基准测试中超越同规模及部分大型模型

大型语言模型

Transformers

#在线RLHF优化 #指令微调模型 #多基准SOTA

下载量 55

发布时间 : 5/9/2024

模型简介

一个经过强化学习优化的开源指令模型，专注于提升对话质量和任务完成能力，适用于各类自然语言处理任务

模型特点

迭代式DPO训练

采用创新的在线RLHF训练方案，相比传统PPO方法更高效且易于调优

卓越性能

在Alpaca-Eval-V2、MT-Bench等基准测试中超越GPT-3.5-turbo等商业模型

纯开源数据训练

完全使用开源数据集训练，未引入任何人/GPT4标注数据

模型能力

自然语言理解

指令跟随

多轮对话

文本生成

问题解答

使用案例

智能助手

个性化学习助手

如书法学习建议等个性化指导

能提供结构化、实用的学习建议

客服系统

自动化客服

处理常见客户咨询

高效准确的响应能力

🚀 Llama-3-8B-SFR-Iterative-DPO-R

我们发布了一款同类中最先进的指令模型 Llama-3-8B-SFR-Iterative-DPO-R。该模型在三个广泛使用的指令模型基准测试（Alpaca-Eval-V2、MT-Bench、Chat-Arena-Hard）中，表现优于所有相近规模的模型（如 LLaMA-3-8B-it）、大多数大型开源模型（如 Mixtral-8x7B-it），以及强大的专有模型（如 GPT-3.5-turbo-0613）。此模型使用开源数据集进行训练，未使用额外的人工或 GPT4 标注数据。

🚀 快速开始

你可以参考以下代码示例来使用该模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" 

model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")

messages = [
    {"role": "user", "content": "I'm trying to teach myself to have nicer handwriting. Can you help?"},
]

model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")

model_inputs = model_inputs.to(device)
model.to(device)

output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])

✨ 主要特性

性能卓越：在多个基准测试中，超越相近规模模型、大型开源模型以及部分专有模型。
训练成本低：基于 DPO 的训练方法，相比基于 PPO 的方法，训练和调优成本更低、更简单。
有效缓解分布偏移：在线组件有效缓解了策略优化过程中的分布偏移问题。

📦 模型发布

🔧 训练方法

我们为大语言模型的指令训练开发了一种简单高效的在线 RLHF 方法。该方法基于 DPO，与基于 PPO 的方法相比，训练和调优成本更低、更简单。与广泛使用的离线 DPO 不同，我们方法中的在线组件能有效缓解策略优化过程中的分布偏移问题。详细内容请参考我们附带的技术报告。

📚 详细文档

对话基准测试

模型	规模	方法	LC Alpaca-Eval-V2	MT-Bench	Chat-Arena-Hard
小型开源模型
Gemma-7B-it	7B	SFT	10.4	6.38	7.5
Zephyr-7B-beta	7B	Vanilla DPO	13.1	7.34	-
Mistral-7B-v0.2-it	7B	SFT	17.1	7.51	12.6
Open-Chat-0106	7B	SFT	15.6	7.8	-
Starling-7B-beta	7B	PPO	25.8	8.12	23.0
LLaMA-3-8B-it	8B	RS+DPO+PPO	22.9	8.16	20.6
我们的模型
我们的模型（SFT 基线）	8B	SFT	10.2	7.69	5.6
我们的模型（DPO 基线）	8B	Vanilla DPO	22.5	8.17	22.4
我们的模型（在线 RLHF）	8B	迭代 DPO	31.3	8.46	29.1
大型开源模型
Vicuna-33b-v1.3	33B	SFT	17.6	7.12	8.6
Yi-34B-Chat	34B	SFT	27.2	-	23.1
Mixtral-8x7B-it	45B*	SFT	23.7	8.30	23.4
Tulu-2-DPO-70B	70B	Vanilla DPO	21.2	7.89	15.0
LLaMA-3-70B-it	70B	RS+DPO+PPO	34.4	8.95	41.1
Mixtral-8x22B-it	141B*	SFT	30.9	8.66	36.4
专有模型
GPT-3.5-turbo-1106	-	-	19.3	8.35	18.9
GPT-3.5-turbo-0613	-	-	22.7	8.39	24.8
GPT-4-0613	-	-	30.2	9.18	37.9
Claude-3-Opus	-	-	40.5	9.00	60.4
GPT-4 Turbo (04/09)	-	-	55.0	-	82.6

学术基准测试

模型	规模	方法	GSM-8K	MMLU	HumanEval	TruthfulQA	ARC	MBPP
LLaMA-3-8B-it	8B	RS+DPO+PPO	79.6	66.0	61.6	43.9	59.5	61.1
我们的模型（SFT 基线）	8B	SFT	74.2	64.7	65.2	53.4	61.4	62.3
我们的模型（DPO 基线）	8B	Vanilla DPO	79.8	64.5	63.4	61.8	65.2	60.3
我们的模型（迭代 RLHF）	8B	迭代 DPO	80.7	65.3	64.6	60.4	64.3	60.8

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" 

model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")

messages = [
    {"role": "user", "content": "I'm trying to teach myself to have nicer handwriting. Can you help?"},
]

model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")

model_inputs = model_inputs.to(device)
model.to(device)

output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])

⚠️ 局限性

Llama-3-8B-SFR-Iterative-DPO-R 是 Salesforce 公司 RLHF 项目的研究模型。虽然我们在模型对齐过程中充分考虑了安全和道德因素，但模型仍有可能生成冒犯性或不道德的内容，尤其是在对抗性条件下。我们致力于持续改进模型，以降低此类风险，并鼓励用户负责任地使用该模型。

📄 许可证

该模型使用 llama3 许可证。

📖 引用

如果您觉得我们的模型有用，请引用我们的论文：

@misc{dong2024rlhf,
      title={RLHF Workflow: From Reward Modeling to Online RLHF}, 
      author={Hanze Dong* and Wei Xiong* and Bo Pang* and Haoxiang Wang* and Han Zhao and Yingbo Zhou and Nan Jiang and Doyen Sahoo and Caiming Xiong and Tong Zhang},
      year={2024},
      eprint={2405.07863},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

@misc{xiong2024iterative,
      title={Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint}, 
      author={Wei Xiong and Hanze Dong and Chenlu Ye and Ziqi Wang and Han Zhong and Heng Ji and Nan Jiang and Tong Zhang},
      year={2024},
      eprint={2312.11456},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

⚖️ 伦理声明

本模型仅用于支持学术研究。我们的模型、数据集和代码并非专门为所有下游应用场景设计或评估。我们强烈建议用户在部署模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在高风险场景中，错误或不当使用可能会对人们的生活、权利或安全产生重大影响。有关用例的更多指导，请参考我们的标准 AUP 和 AI AUP。