Snorkel-Mistral-PairRM-DPO開源聊天語言模型 - 專為聊天優化，基準測試表現佳

首頁

Snorkel Mistral PairRM DPO

由snorkelai開發

專為聊天場景優化的語言模型，通過DPO方法對齊，在Alpaca-Eval 2.0基準測試中表現優異

大型語言模型

Transformers

開源協議:Apache-2.0 #對話優化 #偏好對齊 #迭代DPO

下載量 902

發布時間 : 1/19/2024

模型概述

基於Mistral-7B-Instruct微調的大語言模型，採用PairRM獎勵模型和迭代DPO方法優化對話質量

模型特點

優化的聊天體驗

專為對話場景設計，提供更自然流暢的交互體驗

迭代DPO對齊

通過三次迭代的直接偏好優化過程提升模型輸出質量

專業獎勵模型

使用PairRM作為獎勵模型指導模型優化方向

可定製性

支持企業構建內部獎勵模型以滿足特定需求

模型能力

文本生成

對話交互

內容推薦

使用案例

娛樂

電影推薦

根據用戶請求推薦好萊塢電影

生成符合用戶偏好的電影推薦列表

企業應用

客戶服務

構建定製化客服對話系統

提供更符合企業風格的客戶交互體驗

🚀 Snorkel-Mistral-PairRM-DPO模型

Snorkel-Mistral-PairRM-DPO是一款專為聊天場景優化的模型。它通過特定的方法對大語言模型進行微調與對齊，在Alpaca-Eval 2.0基準測試中取得了優異的成績，為大語言模型的對齊提供了新的思路和方法。

🚀 快速開始

你可以通過以下方式體驗我們的模型：

在線體驗：訪問 Together AI 在線體驗模型。鏈接：https://api.together.xyz/playground/chat/snorkelai/Snorkel-Mistral-PairRM-DPO
API調用：我們的模型也可以通過 Together AI API 調用，模型API字符串為：snorkelai/Snorkel-Mistral-PairRM-DPO
HF推理端點：我們還提供了一個HF推理端點供大家測試模型。該端點可能需要幾分鐘才能激活，推理速度取決於HF端點性能，與Snorkel無關，僅用於初步測試，不適合持續的生產使用。

import requests

API_URL = "https://t1q6ks6fusyg1qq7.us-east-1.aws.endpoints.huggingface.cloud"
headers = {
    "Accept": "application/json",
    "Content-Type": "application/json" 
}

def query(payload):
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()

output = query({
    "inputs": "[INST] Recommend me some Hollywood movies [/INST]",
    "parameters": {}
})

✨ 主要特性

優化的聊天體驗：專為聊天場景優化，能更好地滿足用戶的對話需求。
優異的基準測試成績：在Alpaca-Eval 2.0基準測試中排名靠前，證明了模型的性能。
可定製性：可以根據企業的特定需求構建內部獎勵模型。

📦 數據集

訓練數據集：snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset
僅使用特定提示：我們僅使用 UltraFeedback 中的提示，未使用外部大語言模型的回覆。

🔧 技術細節

方法流程

生成回覆變體：使用 Mistral-7B-Instruct-v0.2 為20,000個提示子集生成五個回覆變體。
回覆重排序：使用 PairRM 對回覆進行重排序。
更新大語言模型：對排名靠前（選中）和靠後（拒絕）的回覆應用直接偏好優化（DPO）來更新大語言模型。
迭代更新：將更新後的大語言模型作為下一次迭代的基礎模型，總共重複三次。

訓練配方

數據格式：提供的數據格式與Hugging Face的 Zephyr配方兼容。
迭代執行：使用 “train/test_iteration_{n}” 執行第n次DPO迭代。

關鍵前提

專業化需求：對於大多數企業用例，直接使用“現成”的大語言模型無法達到生產質量，需要額外的微調與對齊。
模型構建便捷性：創建排名/評分/分類模型比開發高質量的長格式回覆手動標註數據集更容易。
對齊配方：使用較小但專業化的教師模型（獎勵模型）可以逐步將大語言模型向特定方向對齊。

應用場景

我們使用通用的獎勵模型 PairRM模型和 Mistral-7B-Instruct-v0.2 作為基礎大語言模型，專注於通用的對齊方法。如果你有興趣構建反映企業需求的專業化內部獎勵模型，請聯繫Snorkel AI團隊或參加我們的 企業大語言模型峰會：2024年1月25日利用你的數據構建生成式AI，瞭解更多關於“在生成式AI中以編程方式擴展人類偏好和對齊”的信息。

📈 結果

Alpaca-Eval 2.0基準測試

基礎模型得分：Mistral-7B-Instruct-v0.2 得分為 14.72。
應用方法後得分：本模型得分為 30.22，排名第3，在發佈時是開源基礎模型中得分最高的。
後處理得分：使用PairRM-best-of-16對模型輸出進行後處理（生成16個回覆並選擇PairRM評分最高的回覆），得分為 34.86，排名第2。排行榜上的最佳模型是 “gpt-4-turbo”，它也是最優回覆的評判者。

基準測試說明

我們認識到Alpaca-Eval 2.0基準測試不能完全涵蓋大語言模型的所有能力和性能。但在當前旨在與通用“人類偏好”對齊的工作中，Alpaca-Eval 2.0是一個合適且具有代表性的基準。未來，我們期待社區在新的對齊方向上做出更多貢獻，並使用其他合適的基準進行評估。

回覆長度影響

Alpaca-Eval 2.0評估器 “gpt-4-turbo” 對較長回覆有偏好。這種傾向可能也存在於我們選擇的獎勵模型中，導致我們的模型在DPO迭代後生成更長的回覆，這可能是我們在排行榜上排名較高的因素之一。未來的工作可以包括控制回覆長度和其他相關指標的措施。

⚠️ 侷限性

本模型是一個快速演示，展示了可以使用較小的專業化獎勵模型以編程方式對齊大語言模型。它沒有任何審核機制。我們期待繼續與研究社區和客戶合作，探索使模型遵守規則的最佳方法，以便在需要審核輸出的環境中部署。

🙏 相關工作與致謝

感謝Mistral AI團隊開發併發布先進的Mistral-7B-Instruct-v0.2模型。
感謝 Direct Preference Optimization論文的作者提出的創新方法。
感謝 Pairwise Reward Model for LLMs論文的作者提供強大的通用獎勵模型。
感謝HuggingFace團隊在 The Alignment Handbook 中實現的DPO。
感謝Meta & NYU（Yuan等人）於2024年1月18日在arXiv上獨立發表的 Self-Rewarding Language Models 論文，該論文提出了一種從更大的候選回覆集中創建對齊對的類似通用方法，但使用大語言模型作為獎勵模型。
感謝Xiong等人於2024年1月28日發表的 Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint 論文，該論文采用了類似的方法，但更側重於迭代DPO過程的理論方面。

📦 其他版本

GGUF版本：可以從 andrew-cartwheel 或 brittlewis12 獲取GGUF模型版本。
ExllamaV2量化模型版本：可以從 bartowski 獲取。感謝上述社區成員提供的GGUF模型版本。

👥 Snorkel AI團隊

Hoang Tran, Chris Glaze, Braden Hancock

如果你覺得這項工作有用，請引用我們的工作：

@techreport{viethoangtranduong,
  author = {Tran, Hoang and Glaze, Chris, and Hancock, Braden},
  title = {Iterative DPO Alignment},
  institution = {Snorkel AI},
  year = {2023},
}