模型概述
模型特點
模型能力
使用案例
🚀 Llama-3-8B-SFR-Iterative-DPO-R
我們發佈了一款同類中最先進的指令模型 Llama-3-8B-SFR-Iterative-DPO-R。該模型在三個廣泛使用的指令模型基準測試(Alpaca-Eval-V2、MT-Bench、Chat-Arena-Hard)中,表現優於所有相近規模的模型(如 LLaMA-3-8B-it)、大多數大型開源模型(如 Mixtral-8x7B-it),以及強大的專有模型(如 GPT-3.5-turbo-0613)。此模型使用開源數據集進行訓練,未使用額外的人工或 GPT4 標註數據。
🚀 快速開始
你可以參考以下代碼示例來使用該模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
messages = [
{"role": "user", "content": "I'm trying to teach myself to have nicer handwriting. Can you help?"},
]
model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = model_inputs.to(device)
model.to(device)
output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])
✨ 主要特性
- 性能卓越:在多個基準測試中,超越相近規模模型、大型開源模型以及部分專有模型。
- 訓練成本低:基於 DPO 的訓練方法,相比基於 PPO 的方法,訓練和調優成本更低、更簡單。
- 有效緩解分佈偏移:在線組件有效緩解了策略優化過程中的分佈偏移問題。
📦 模型發佈
🔧 訓練方法
我們為大語言模型的指令訓練開發了一種簡單高效的在線 RLHF 方法。該方法基於 DPO,與基於 PPO 的方法相比,訓練和調優成本更低、更簡單。與廣泛使用的離線 DPO 不同,我們方法中的在線組件能有效緩解策略優化過程中的分佈偏移問題。詳細內容請參考我們附帶的技術報告。
📚 詳細文檔
對話基準測試
模型 | 規模 | 方法 | LC Alpaca-Eval-V2 | MT-Bench | Chat-Arena-Hard |
---|---|---|---|---|---|
小型開源模型 | |||||
Gemma-7B-it | 7B | SFT | 10.4 | 6.38 | 7.5 |
Zephyr-7B-beta | 7B | Vanilla DPO | 13.1 | 7.34 | - |
Mistral-7B-v0.2-it | 7B | SFT | 17.1 | 7.51 | 12.6 |
Open-Chat-0106 | 7B | SFT | 15.6 | 7.8 | - |
Starling-7B-beta | 7B | PPO | 25.8 | 8.12 | 23.0 |
LLaMA-3-8B-it | 8B | RS+DPO+PPO | 22.9 | 8.16 | 20.6 |
我們的模型 | |||||
我們的模型(SFT 基線) | 8B | SFT | 10.2 | 7.69 | 5.6 |
我們的模型(DPO 基線) | 8B | Vanilla DPO | 22.5 | 8.17 | 22.4 |
我們的模型(在線 RLHF) | 8B | 迭代 DPO | 31.3 | 8.46 | 29.1 |
大型開源模型 | |||||
Vicuna-33b-v1.3 | 33B | SFT | 17.6 | 7.12 | 8.6 |
Yi-34B-Chat | 34B | SFT | 27.2 | - | 23.1 |
Mixtral-8x7B-it | 45B* | SFT | 23.7 | 8.30 | 23.4 |
Tulu-2-DPO-70B | 70B | Vanilla DPO | 21.2 | 7.89 | 15.0 |
LLaMA-3-70B-it | 70B | RS+DPO+PPO | 34.4 | 8.95 | 41.1 |
Mixtral-8x22B-it | 141B* | SFT | 30.9 | 8.66 | 36.4 |
專有模型 | |||||
GPT-3.5-turbo-1106 | - | - | 19.3 | 8.35 | 18.9 |
GPT-3.5-turbo-0613 | - | - | 22.7 | 8.39 | 24.8 |
GPT-4-0613 | - | - | 30.2 | 9.18 | 37.9 |
Claude-3-Opus | - | - | 40.5 | 9.00 | 60.4 |
GPT-4 Turbo (04/09) | - | - | 55.0 | - | 82.6 |
學術基準測試
模型 | 規模 | 方法 | GSM-8K | MMLU | HumanEval | TruthfulQA | ARC | MBPP |
---|---|---|---|---|---|---|---|---|
LLaMA-3-8B-it | 8B | RS+DPO+PPO | 79.6 | 66.0 | 61.6 | 43.9 | 59.5 | 61.1 |
我們的模型(SFT 基線) | 8B | SFT | 74.2 | 64.7 | 65.2 | 53.4 | 61.4 | 62.3 |
我們的模型(DPO 基線) | 8B | Vanilla DPO | 79.8 | 64.5 | 63.4 | 61.8 | 65.2 | 60.3 |
我們的模型(迭代 RLHF) | 8B | 迭代 DPO | 80.7 | 65.3 | 64.6 | 60.4 | 64.3 | 60.8 |
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
messages = [
{"role": "user", "content": "I'm trying to teach myself to have nicer handwriting. Can you help?"},
]
model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = model_inputs.to(device)
model.to(device)
output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])
⚠️ 侷限性
Llama-3-8B-SFR-Iterative-DPO-R 是 Salesforce 公司 RLHF 項目的研究模型。雖然我們在模型對齊過程中充分考慮了安全和道德因素,但模型仍有可能生成冒犯性或不道德的內容,尤其是在對抗性條件下。我們致力於持續改進模型,以降低此類風險,並鼓勵用戶負責任地使用該模型。
📄 許可證
該模型使用 llama3 許可證。
📖 引用
如果您覺得我們的模型有用,請引用我們的論文:
@misc{dong2024rlhf,
title={RLHF Workflow: From Reward Modeling to Online RLHF},
author={Hanze Dong* and Wei Xiong* and Bo Pang* and Haoxiang Wang* and Han Zhao and Yingbo Zhou and Nan Jiang and Doyen Sahoo and Caiming Xiong and Tong Zhang},
year={2024},
eprint={2405.07863},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{xiong2024iterative,
title={Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint},
author={Wei Xiong and Hanze Dong and Chenlu Ye and Ziqi Wang and Han Zhong and Heng Ji and Nan Jiang and Tong Zhang},
year={2024},
eprint={2312.11456},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
⚖️ 倫理聲明
本模型僅用於支持學術研究。我們的模型、數據集和代碼並非專門為所有下游應用場景設計或評估。我們強烈建議用戶在部署模型之前,評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性,遵守適用法律,並在選擇用例時採用最佳實踐,特別是在高風險場景中,錯誤或不當使用可能會對人們的生活、權利或安全產生重大影響。有關用例的更多指導,請參考我們的標準 AUP 和 AI AUP。



