🚀 Tulu V2 DPO 7B模型卡
Tulu是一系列经过训练的语言模型,旨在成为用户的得力助手。Tulu V2 DPO 7B是Llama 2的微调版本,它使用直接偏好优化(DPO)方法,在公开可用、合成和人工数据集的混合数据上进行训练。该模型是Llama 2 7b Chat的有力替代方案。
如需了解更多详情,请阅读论文:Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2。
🚀 快速开始
Tulu V2 DPO 7B模型是基于Llama 2微调而来,使用特定的数据集和优化方法进行训练,为用户提供了一个强大的语言交互工具。
✨ 主要特性
- 训练方法先进:采用直接偏好优化(DPO)方法进行训练,提升模型性能。
- 数据来源多样:在公开可用、合成和人工数据集的混合数据上进行训练,使模型具有更广泛的知识和更强的适应性。
- 替代方案优秀:是Llama 2 7b Chat的有力替代方案,为用户提供更多选择。
📚 详细文档
模型描述
模型来源
性能表现
模型 |
大小 |
对齐方式 |
MT-Bench(得分) |
AlpacaEval(胜率 %) |
Tulu-v2-7b 🐪 |
7B |
SFT |
6.30 |
73.9 |
Tulu-v2-dpo-7b 🐪 |
7B |
DPO |
6.29 |
85.1 |
Tulu-v2-13b 🐪 |
13B |
SFT |
6.70 |
78.9 |
Tulu-v2-dpo-13b 🐪 |
13B |
DPO |
7.00 |
89.5 |
Tulu-v2-70b 🐪 |
70B |
SFT |
7.49 |
86.6 |
Tulu-v2-dpo-70b 🐪 |
70B |
DPO |
7.89 |
95.1 |
输入格式
模型训练使用以下格式(注意换行符):
<|user|>
Your message here!
<|assistant|>
为获得最佳效果,请以这种方式格式化所有输入。确保在 <|assistant|>
后包含换行符,这可能会对生成质量产生较大影响。
预期用途和限制
该模型最初在经过过滤和预处理的Tulu V2混合数据集上进行微调,该数据集包含各种人类创建的指令和主要由其他大语言模型生成的合成对话。然后,使用基于EasyLM构建的Jax DPO训练器,在openbmb/UltraFeedback数据集上进一步调整模型,该数据集包含64k个由GPT - 4排名的提示和模型完成内容。
偏差、风险和限制
Tulu模型在强化学习人类反馈(RLHF)阶段未进行安全生成调整,也未像ChatGPT那样在部署时进行响应过滤,因此模型可能会产生有问题的输出(特别是在被明确要求时)。此外,目前尚不清楚训练基础Llama 2模型的语料库的大小和组成,但很可能包含网络数据和书籍、代码等技术来源的混合。可参考Falcon 180B模型卡了解相关示例。
训练超参数
以下是DPO训练期间使用的超参数:
- 学习率:5e - 07
- 总训练批次大小:32
- 优化器:Adam,β值为(0.9, 0.999),ε值为1e - 08
- 学习率调度器类型:线性
- 学习率调度器预热比例:0.1
- 训练轮数:3.0
🔧 技术细节
训练方法
使用直接偏好优化(DPO)方法对Llama 2进行微调,结合多种数据集提升模型性能。
数据集
- Tulu V2混合数据集:包含人类创建的指令和合成对话,经过过滤和预处理。
- openbmb/UltraFeedback数据集:包含64k个由GPT - 4排名的提示和模型完成内容。
训练超参数
在DPO训练过程中,使用了特定的学习率、批次大小、优化器等超参数,以确保模型的训练效果。
📄 许可证
该模型使用AI2 ImpACT低风险许可证。
📝 引用
如果您发现Tulu 2在您的工作中很有用,请使用以下方式引用:
@misc{ivison2023camels,
title={Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2},
author={Hamish Ivison and Yizhong Wang and Valentina Pyatkin and Nathan Lambert and Matthew Peters and Pradeep Dasigi and Joel Jang and David Wadden and Noah A. Smith and Iz Beltagy and Hannaneh Hajishirzi},
year={2023},
eprint={2311.10702},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
模型卡改编自Zephyr Beta