🚀 Snorkel-Mistral-PairRM-DPO模型
Snorkel-Mistral-PairRM-DPO是一款专为聊天场景优化的模型。它通过特定的方法对大语言模型进行微调与对齐,在Alpaca-Eval 2.0基准测试中取得了优异的成绩,为大语言模型的对齐提供了新的思路和方法。
🚀 快速开始
你可以通过以下方式体验我们的模型:
- 在线体验:访问 Together AI 在线体验模型。链接:https://api.together.xyz/playground/chat/snorkelai/Snorkel-Mistral-PairRM-DPO
- API调用:我们的模型也可以通过 Together AI API 调用,模型API字符串为:
snorkelai/Snorkel-Mistral-PairRM-DPO
- HF推理端点:我们还提供了一个HF推理端点供大家测试模型。该端点可能需要几分钟才能激活,推理速度取决于HF端点性能,与Snorkel无关,仅用于初步测试,不适合持续的生产使用。
import requests
API_URL = "https://t1q6ks6fusyg1qq7.us-east-1.aws.endpoints.huggingface.cloud"
headers = {
"Accept": "application/json",
"Content-Type": "application/json"
}
def query(payload):
response = requests.post(API_URL, headers=headers, json=payload)
return response.json()
output = query({
"inputs": "[INST] Recommend me some Hollywood movies [/INST]",
"parameters": {}
})
✨ 主要特性
- 优化的聊天体验:专为聊天场景优化,能更好地满足用户的对话需求。
- 优异的基准测试成绩:在Alpaca-Eval 2.0基准测试中排名靠前,证明了模型的性能。
- 可定制性:可以根据企业的特定需求构建内部奖励模型。
📦 数据集
🔧 技术细节
方法流程
- 生成回复变体:使用 Mistral-7B-Instruct-v0.2 为20,000个提示子集生成五个回复变体。
- 回复重排序:使用 PairRM 对回复进行重排序。
- 更新大语言模型:对排名靠前(选中)和靠后(拒绝)的回复应用直接偏好优化(DPO)来更新大语言模型。
- 迭代更新:将更新后的大语言模型作为下一次迭代的基础模型,总共重复三次。
训练配方
- 数据格式:提供的数据格式与Hugging Face的 Zephyr配方 兼容。
- 迭代执行:使用 “train/test_iteration_{n}” 执行第n次DPO迭代。
关键前提
- 专业化需求:对于大多数企业用例,直接使用“现成”的大语言模型无法达到生产质量,需要额外的微调与对齐。
- 模型构建便捷性:创建排名/评分/分类模型比开发高质量的长格式回复手动标注数据集更容易。
- 对齐配方:使用较小但专业化的教师模型(奖励模型)可以逐步将大语言模型向特定方向对齐。
应用场景
我们使用通用的奖励模型 PairRM模型 和 Mistral-7B-Instruct-v0.2 作为基础大语言模型,专注于通用的对齐方法。如果你有兴趣构建反映企业需求的专业化内部奖励模型,请联系Snorkel AI团队或参加我们的 企业大语言模型峰会:2024年1月25日利用你的数据构建生成式AI,了解更多关于“在生成式AI中以编程方式扩展人类偏好和对齐”的信息。
📈 结果
Alpaca-Eval 2.0基准测试
- 基础模型得分:Mistral-7B-Instruct-v0.2 得分为 14.72。
- 应用方法后得分:本模型得分为 30.22,排名第3,在发布时是开源基础模型中得分最高的。
- 后处理得分:使用PairRM-best-of-16对模型输出进行后处理(生成16个回复并选择PairRM评分最高的回复),得分为 34.86,排名第2。排行榜上的最佳模型是 “gpt-4-turbo”,它也是最优回复的评判者。
基准测试说明
我们认识到Alpaca-Eval 2.0基准测试不能完全涵盖大语言模型的所有能力和性能。但在当前旨在与通用“人类偏好”对齐的工作中,Alpaca-Eval 2.0是一个合适且具有代表性的基准。未来,我们期待社区在新的对齐方向上做出更多贡献,并使用其他合适的基准进行评估。
回复长度影响
Alpaca-Eval 2.0评估器 “gpt-4-turbo” 对较长回复有偏好。这种倾向可能也存在于我们选择的奖励模型中,导致我们的模型在DPO迭代后生成更长的回复,这可能是我们在排行榜上排名较高的因素之一。未来的工作可以包括控制回复长度和其他相关指标的措施。
⚠️ 局限性
本模型是一个快速演示,展示了可以使用较小的专业化奖励模型以编程方式对齐大语言模型。它没有任何审核机制。我们期待继续与研究社区和客户合作,探索使模型遵守规则的最佳方法,以便在需要审核输出的环境中部署。
🙏 相关工作与致谢
📦 其他版本
👥 Snorkel AI团队
Hoang Tran, Chris Glaze, Braden Hancock
如果你觉得这项工作有用,请引用 我们的工作:
@techreport{viethoangtranduong,
author = {Tran, Hoang and Glaze, Chris, and Hancock, Braden},
title = {Iterative DPO Alignment},
institution = {Snorkel AI},
year = {2023},
}
📄 许可证
本项目采用Apache-2.0许可证。