🚀 Tulu V2 DPO 7B模型卡
Tulu是一系列經過訓練的語言模型,旨在成為用戶的得力助手。Tulu V2 DPO 7B是Llama 2的微調版本,它使用直接偏好優化(DPO)方法,在公開可用、合成和人工數據集的混合數據上進行訓練。該模型是Llama 2 7b Chat的有力替代方案。
如需瞭解更多詳情,請閱讀論文:Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2。
🚀 快速開始
Tulu V2 DPO 7B模型是基於Llama 2微調而來,使用特定的數據集和優化方法進行訓練,為用戶提供了一個強大的語言交互工具。
✨ 主要特性
- 訓練方法先進:採用直接偏好優化(DPO)方法進行訓練,提升模型性能。
- 數據來源多樣:在公開可用、合成和人工數據集的混合數據上進行訓練,使模型具有更廣泛的知識和更強的適應性。
- 替代方案優秀:是Llama 2 7b Chat的有力替代方案,為用戶提供更多選擇。
📚 詳細文檔
模型描述
模型來源
性能表現
模型 |
大小 |
對齊方式 |
MT-Bench(得分) |
AlpacaEval(勝率 %) |
Tulu-v2-7b 🐪 |
7B |
SFT |
6.30 |
73.9 |
Tulu-v2-dpo-7b 🐪 |
7B |
DPO |
6.29 |
85.1 |
Tulu-v2-13b 🐪 |
13B |
SFT |
6.70 |
78.9 |
Tulu-v2-dpo-13b 🐪 |
13B |
DPO |
7.00 |
89.5 |
Tulu-v2-70b 🐪 |
70B |
SFT |
7.49 |
86.6 |
Tulu-v2-dpo-70b 🐪 |
70B |
DPO |
7.89 |
95.1 |
輸入格式
模型訓練使用以下格式(注意換行符):
<|user|>
Your message here!
<|assistant|>
為獲得最佳效果,請以這種方式格式化所有輸入。確保在 <|assistant|>
後包含換行符,這可能會對生成質量產生較大影響。
預期用途和限制
該模型最初在經過過濾和預處理的Tulu V2混合數據集上進行微調,該數據集包含各種人類創建的指令和主要由其他大語言模型生成的合成對話。然後,使用基於EasyLM構建的Jax DPO訓練器,在openbmb/UltraFeedback數據集上進一步調整模型,該數據集包含64k個由GPT - 4排名的提示和模型完成內容。
偏差、風險和限制
Tulu模型在強化學習人類反饋(RLHF)階段未進行安全生成調整,也未像ChatGPT那樣在部署時進行響應過濾,因此模型可能會產生有問題的輸出(特別是在被明確要求時)。此外,目前尚不清楚訓練基礎Llama 2模型的語料庫的大小和組成,但很可能包含網絡數據和書籍、代碼等技術來源的混合。可參考Falcon 180B模型卡瞭解相關示例。
訓練超參數
以下是DPO訓練期間使用的超參數:
- 學習率:5e - 07
- 總訓練批次大小:32
- 優化器:Adam,β值為(0.9, 0.999),ε值為1e - 08
- 學習率調度器類型:線性
- 學習率調度器預熱比例:0.1
- 訓練輪數:3.0
🔧 技術細節
訓練方法
使用直接偏好優化(DPO)方法對Llama 2進行微調,結合多種數據集提升模型性能。
數據集
- Tulu V2混合數據集:包含人類創建的指令和合成對話,經過過濾和預處理。
- openbmb/UltraFeedback數據集:包含64k個由GPT - 4排名的提示和模型完成內容。
訓練超參數
在DPO訓練過程中,使用了特定的學習率、批次大小、優化器等超參數,以確保模型的訓練效果。
📄 許可證
該模型使用AI2 ImpACT低風險許可證。
📝 引用
如果您發現Tulu 2在您的工作中很有用,請使用以下方式引用:
@misc{ivison2023camels,
title={Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2},
author={Hamish Ivison and Yizhong Wang and Valentina Pyatkin and Nathan Lambert and Matthew Peters and Pradeep Dasigi and Joel Jang and David Wadden and Noah A. Smith and Iz Beltagy and Hannaneh Hajishirzi},
year={2023},
eprint={2311.10702},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
模型卡改編自Zephyr Beta