LLaMA-3-8B-SFR-Iterative-DPO-R開源模型 - 指令優化多項評測超越同規模模型

首頁

Llama 3 8B SFR Iterative DPO R

由Salesforce開發

基於Llama-3-8B的指令優化模型，採用迭代式DPO強化學習訓練，在多項基準測試中超越同規模及部分大型模型

大型語言模型

Transformers

#在線RLHF優化 #指令微調模型 #多基準SOTA

下載量 55

發布時間 : 5/9/2024

模型概述

一個經過強化學習優化的開源指令模型，專注於提升對話質量和任務完成能力，適用於各類自然語言處理任務

模型特點

迭代式DPO訓練

採用創新的在線RLHF訓練方案，相比傳統PPO方法更高效且易於調優

卓越性能

在Alpaca-Eval-V2、MT-Bench等基準測試中超越GPT-3.5-turbo等商業模型

純開源數據訓練

完全使用開源數據集訓練，未引入任何人/GPT4標註數據

模型能力

自然語言理解

指令跟隨

多輪對話

文本生成

問題解答

使用案例

智能助手

個性化學習助手

如書法學習建議等個性化指導

能提供結構化、實用的學習建議

客服系統

自動化客服

處理常見客戶諮詢

高效準確的響應能力

🚀 Llama-3-8B-SFR-Iterative-DPO-R

我們發佈了一款同類中最先進的指令模型 Llama-3-8B-SFR-Iterative-DPO-R。該模型在三個廣泛使用的指令模型基準測試（Alpaca-Eval-V2、MT-Bench、Chat-Arena-Hard）中，表現優於所有相近規模的模型（如 LLaMA-3-8B-it）、大多數大型開源模型（如 Mixtral-8x7B-it），以及強大的專有模型（如 GPT-3.5-turbo-0613）。此模型使用開源數據集進行訓練，未使用額外的人工或 GPT4 標註數據。

🚀 快速開始

你可以參考以下代碼示例來使用該模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" 

model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")

messages = [
    {"role": "user", "content": "I'm trying to teach myself to have nicer handwriting. Can you help?"},
]

model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")

model_inputs = model_inputs.to(device)
model.to(device)

output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])

✨ 主要特性

性能卓越：在多個基準測試中，超越相近規模模型、大型開源模型以及部分專有模型。
訓練成本低：基於 DPO 的訓練方法，相比基於 PPO 的方法，訓練和調優成本更低、更簡單。
有效緩解分佈偏移：在線組件有效緩解了策略優化過程中的分佈偏移問題。

📦 模型發佈

🔧 訓練方法

我們為大語言模型的指令訓練開發了一種簡單高效的在線 RLHF 方法。該方法基於 DPO，與基於 PPO 的方法相比，訓練和調優成本更低、更簡單。與廣泛使用的離線 DPO 不同，我們方法中的在線組件能有效緩解策略優化過程中的分佈偏移問題。詳細內容請參考我們附帶的技術報告。

📚 詳細文檔

對話基準測試

模型	規模	方法	LC Alpaca-Eval-V2	MT-Bench	Chat-Arena-Hard
小型開源模型
Gemma-7B-it	7B	SFT	10.4	6.38	7.5
Zephyr-7B-beta	7B	Vanilla DPO	13.1	7.34	-
Mistral-7B-v0.2-it	7B	SFT	17.1	7.51	12.6
Open-Chat-0106	7B	SFT	15.6	7.8	-
Starling-7B-beta	7B	PPO	25.8	8.12	23.0
LLaMA-3-8B-it	8B	RS+DPO+PPO	22.9	8.16	20.6
我們的模型
我們的模型（SFT 基線）	8B	SFT	10.2	7.69	5.6
我們的模型（DPO 基線）	8B	Vanilla DPO	22.5	8.17	22.4
我們的模型（在線 RLHF）	8B	迭代 DPO	31.3	8.46	29.1
大型開源模型
Vicuna-33b-v1.3	33B	SFT	17.6	7.12	8.6
Yi-34B-Chat	34B	SFT	27.2	-	23.1
Mixtral-8x7B-it	45B*	SFT	23.7	8.30	23.4
Tulu-2-DPO-70B	70B	Vanilla DPO	21.2	7.89	15.0
LLaMA-3-70B-it	70B	RS+DPO+PPO	34.4	8.95	41.1
Mixtral-8x22B-it	141B*	SFT	30.9	8.66	36.4
專有模型
GPT-3.5-turbo-1106	-	-	19.3	8.35	18.9
GPT-3.5-turbo-0613	-	-	22.7	8.39	24.8
GPT-4-0613	-	-	30.2	9.18	37.9
Claude-3-Opus	-	-	40.5	9.00	60.4
GPT-4 Turbo (04/09)	-	-	55.0	-	82.6

學術基準測試

模型	規模	方法	GSM-8K	MMLU	HumanEval	TruthfulQA	ARC	MBPP
LLaMA-3-8B-it	8B	RS+DPO+PPO	79.6	66.0	61.6	43.9	59.5	61.1
我們的模型（SFT 基線）	8B	SFT	74.2	64.7	65.2	53.4	61.4	62.3
我們的模型（DPO 基線）	8B	Vanilla DPO	79.8	64.5	63.4	61.8	65.2	60.3
我們的模型（迭代 RLHF）	8B	迭代 DPO	80.7	65.3	64.6	60.4	64.3	60.8

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" 

model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")
tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-3-8B-SFR-Iterative-DPO-R")

messages = [
    {"role": "user", "content": "I'm trying to teach myself to have nicer handwriting. Can you help?"},
]

model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")

model_inputs = model_inputs.to(device)
model.to(device)

output_tokens = model.generate(model_inputs, max_new_tokens=1024, do_sample=True)
model_outputs = tokenizer.batch_decode(output_tokens)
print(model_outputs[0])

⚠️ 侷限性

Llama-3-8B-SFR-Iterative-DPO-R 是 Salesforce 公司 RLHF 項目的研究模型。雖然我們在模型對齊過程中充分考慮了安全和道德因素，但模型仍有可能生成冒犯性或不道德的內容，尤其是在對抗性條件下。我們致力於持續改進模型，以降低此類風險，並鼓勵用戶負責任地使用該模型。

📄 許可證

該模型使用 llama3 許可證。

📖 引用

如果您覺得我們的模型有用，請引用我們的論文：

@misc{dong2024rlhf,
      title={RLHF Workflow: From Reward Modeling to Online RLHF}, 
      author={Hanze Dong* and Wei Xiong* and Bo Pang* and Haoxiang Wang* and Han Zhao and Yingbo Zhou and Nan Jiang and Doyen Sahoo and Caiming Xiong and Tong Zhang},
      year={2024},
      eprint={2405.07863},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

@misc{xiong2024iterative,
      title={Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint}, 
      author={Wei Xiong and Hanze Dong and Chenlu Ye and Ziqi Wang and Han Zhong and Heng Ji and Nan Jiang and Tong Zhang},
      year={2024},
      eprint={2312.11456},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

⚖️ 倫理聲明

本模型僅用於支持學術研究。我們的模型、數據集和代碼並非專門為所有下游應用場景設計或評估。我們強烈建議用戶在部署模型之前，評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性，遵守適用法律，並在選擇用例時採用最佳實踐，特別是在高風險場景中，錯誤或不當使用可能會對人們的生活、權利或安全產生重大影響。有關用例的更多指導，請參考我們的標準 AUP 和 AI AUP。