Snorkel-Mistral-PairRM-DPO开源聊天语言模型 - 专为聊天优化，基准测试表现佳

首页

Snorkel Mistral PairRM DPO

由 snorkelai 开发

专为聊天场景优化的语言模型，通过DPO方法对齐，在Alpaca-Eval 2.0基准测试中表现优异

大型语言模型

Transformers

开源协议:Apache-2.0 #对话优化 #偏好对齐 #迭代DPO

下载量 902

发布时间 : 1/19/2024

模型简介

基于Mistral-7B-Instruct微调的大语言模型，采用PairRM奖励模型和迭代DPO方法优化对话质量

模型特点

优化的聊天体验

专为对话场景设计，提供更自然流畅的交互体验

迭代DPO对齐

通过三次迭代的直接偏好优化过程提升模型输出质量

专业奖励模型

使用PairRM作为奖励模型指导模型优化方向

可定制性

支持企业构建内部奖励模型以满足特定需求

模型能力

文本生成

对话交互

内容推荐

使用案例

娱乐

电影推荐

根据用户请求推荐好莱坞电影

生成符合用户偏好的电影推荐列表

企业应用

客户服务

构建定制化客服对话系统

提供更符合企业风格的客户交互体验

🚀 Snorkel-Mistral-PairRM-DPO模型

Snorkel-Mistral-PairRM-DPO是一款专为聊天场景优化的模型。它通过特定的方法对大语言模型进行微调与对齐，在Alpaca-Eval 2.0基准测试中取得了优异的成绩，为大语言模型的对齐提供了新的思路和方法。

🚀 快速开始

你可以通过以下方式体验我们的模型：

在线体验：访问 Together AI 在线体验模型。链接：https://api.together.xyz/playground/chat/snorkelai/Snorkel-Mistral-PairRM-DPO
API调用：我们的模型也可以通过 Together AI API 调用，模型API字符串为：snorkelai/Snorkel-Mistral-PairRM-DPO
HF推理端点：我们还提供了一个HF推理端点供大家测试模型。该端点可能需要几分钟才能激活，推理速度取决于HF端点性能，与Snorkel无关，仅用于初步测试，不适合持续的生产使用。

import requests

API_URL = "https://t1q6ks6fusyg1qq7.us-east-1.aws.endpoints.huggingface.cloud"
headers = {
    "Accept": "application/json",
    "Content-Type": "application/json" 
}

def query(payload):
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()

output = query({
    "inputs": "[INST] Recommend me some Hollywood movies [/INST]",
    "parameters": {}
})

✨ 主要特性

优化的聊天体验：专为聊天场景优化，能更好地满足用户的对话需求。
优异的基准测试成绩：在Alpaca-Eval 2.0基准测试中排名靠前，证明了模型的性能。
可定制性：可以根据企业的特定需求构建内部奖励模型。

📦 数据集

训练数据集：snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset
仅使用特定提示：我们仅使用 UltraFeedback 中的提示，未使用外部大语言模型的回复。

🔧 技术细节

方法流程

生成回复变体：使用 Mistral-7B-Instruct-v0.2 为20,000个提示子集生成五个回复变体。
回复重排序：使用 PairRM 对回复进行重排序。
更新大语言模型：对排名靠前（选中）和靠后（拒绝）的回复应用直接偏好优化（DPO）来更新大语言模型。
迭代更新：将更新后的大语言模型作为下一次迭代的基础模型，总共重复三次。

训练配方

数据格式：提供的数据格式与Hugging Face的 Zephyr配方兼容。
迭代执行：使用 “train/test_iteration_{n}” 执行第n次DPO迭代。

关键前提

专业化需求：对于大多数企业用例，直接使用“现成”的大语言模型无法达到生产质量，需要额外的微调与对齐。
模型构建便捷性：创建排名/评分/分类模型比开发高质量的长格式回复手动标注数据集更容易。
对齐配方：使用较小但专业化的教师模型（奖励模型）可以逐步将大语言模型向特定方向对齐。

应用场景

我们使用通用的奖励模型 PairRM模型和 Mistral-7B-Instruct-v0.2 作为基础大语言模型，专注于通用的对齐方法。如果你有兴趣构建反映企业需求的专业化内部奖励模型，请联系Snorkel AI团队或参加我们的 企业大语言模型峰会：2024年1月25日利用你的数据构建生成式AI，了解更多关于“在生成式AI中以编程方式扩展人类偏好和对齐”的信息。

📈 结果

Alpaca-Eval 2.0基准测试

基础模型得分：Mistral-7B-Instruct-v0.2 得分为 14.72。
应用方法后得分：本模型得分为 30.22，排名第3，在发布时是开源基础模型中得分最高的。
后处理得分：使用PairRM-best-of-16对模型输出进行后处理（生成16个回复并选择PairRM评分最高的回复），得分为 34.86，排名第2。排行榜上的最佳模型是 “gpt-4-turbo”，它也是最优回复的评判者。

基准测试说明

我们认识到Alpaca-Eval 2.0基准测试不能完全涵盖大语言模型的所有能力和性能。但在当前旨在与通用“人类偏好”对齐的工作中，Alpaca-Eval 2.0是一个合适且具有代表性的基准。未来，我们期待社区在新的对齐方向上做出更多贡献，并使用其他合适的基准进行评估。

回复长度影响

Alpaca-Eval 2.0评估器 “gpt-4-turbo” 对较长回复有偏好。这种倾向可能也存在于我们选择的奖励模型中，导致我们的模型在DPO迭代后生成更长的回复，这可能是我们在排行榜上排名较高的因素之一。未来的工作可以包括控制回复长度和其他相关指标的措施。

⚠️ 局限性

本模型是一个快速演示，展示了可以使用较小的专业化奖励模型以编程方式对齐大语言模型。它没有任何审核机制。我们期待继续与研究社区和客户合作，探索使模型遵守规则的最佳方法，以便在需要审核输出的环境中部署。

🙏 相关工作与致谢

感谢Mistral AI团队开发并发布先进的Mistral-7B-Instruct-v0.2模型。
感谢 Direct Preference Optimization论文的作者提出的创新方法。
感谢 Pairwise Reward Model for LLMs论文的作者提供强大的通用奖励模型。
感谢HuggingFace团队在 The Alignment Handbook 中实现的DPO。
感谢Meta & NYU（Yuan等人）于2024年1月18日在arXiv上独立发表的 Self-Rewarding Language Models 论文，该论文提出了一种从更大的候选回复集中创建对齐对的类似通用方法，但使用大语言模型作为奖励模型。
感谢Xiong等人于2024年1月28日发表的 Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint 论文，该论文采用了类似的方法，但更侧重于迭代DPO过程的理论方面。

📦 其他版本

GGUF版本：可以从 andrew-cartwheel 或 brittlewis12 获取GGUF模型版本。
ExllamaV2量化模型版本：可以从 bartowski 获取。感谢上述社区成员提供的GGUF模型版本。

👥 Snorkel AI团队

Hoang Tran, Chris Glaze, Braden Hancock

如果你觉得这项工作有用，请引用我们的工作：

@techreport{viethoangtranduong,
  author = {Tran, Hoang and Glaze, Chris, and Hancock, Braden},
  title = {Iterative DPO Alignment},
  institution = {Snorkel AI},
  year = {2023},
}