🚀 Snorkel-Mistral-PairRM-DPO模型
Snorkel-Mistral-PairRM-DPO是一款專為聊天場景優化的模型。它通過特定的方法對大語言模型進行微調與對齊,在Alpaca-Eval 2.0基準測試中取得了優異的成績,為大語言模型的對齊提供了新的思路和方法。
🚀 快速開始
你可以通過以下方式體驗我們的模型:
- 在線體驗:訪問 Together AI 在線體驗模型。鏈接:https://api.together.xyz/playground/chat/snorkelai/Snorkel-Mistral-PairRM-DPO
- API調用:我們的模型也可以通過 Together AI API 調用,模型API字符串為:
snorkelai/Snorkel-Mistral-PairRM-DPO
- HF推理端點:我們還提供了一個HF推理端點供大家測試模型。該端點可能需要幾分鐘才能激活,推理速度取決於HF端點性能,與Snorkel無關,僅用於初步測試,不適合持續的生產使用。
import requests
API_URL = "https://t1q6ks6fusyg1qq7.us-east-1.aws.endpoints.huggingface.cloud"
headers = {
"Accept": "application/json",
"Content-Type": "application/json"
}
def query(payload):
response = requests.post(API_URL, headers=headers, json=payload)
return response.json()
output = query({
"inputs": "[INST] Recommend me some Hollywood movies [/INST]",
"parameters": {}
})
✨ 主要特性
- 優化的聊天體驗:專為聊天場景優化,能更好地滿足用戶的對話需求。
- 優異的基準測試成績:在Alpaca-Eval 2.0基準測試中排名靠前,證明了模型的性能。
- 可定製性:可以根據企業的特定需求構建內部獎勵模型。
📦 數據集
🔧 技術細節
方法流程
- 生成回覆變體:使用 Mistral-7B-Instruct-v0.2 為20,000個提示子集生成五個回覆變體。
- 回覆重排序:使用 PairRM 對回覆進行重排序。
- 更新大語言模型:對排名靠前(選中)和靠後(拒絕)的回覆應用直接偏好優化(DPO)來更新大語言模型。
- 迭代更新:將更新後的大語言模型作為下一次迭代的基礎模型,總共重複三次。
訓練配方
- 數據格式:提供的數據格式與Hugging Face的 Zephyr配方 兼容。
- 迭代執行:使用 “train/test_iteration_{n}” 執行第n次DPO迭代。
關鍵前提
- 專業化需求:對於大多數企業用例,直接使用“現成”的大語言模型無法達到生產質量,需要額外的微調與對齊。
- 模型構建便捷性:創建排名/評分/分類模型比開發高質量的長格式回覆手動標註數據集更容易。
- 對齊配方:使用較小但專業化的教師模型(獎勵模型)可以逐步將大語言模型向特定方向對齊。
應用場景
我們使用通用的獎勵模型 PairRM模型 和 Mistral-7B-Instruct-v0.2 作為基礎大語言模型,專注於通用的對齊方法。如果你有興趣構建反映企業需求的專業化內部獎勵模型,請聯繫Snorkel AI團隊或參加我們的 企業大語言模型峰會:2024年1月25日利用你的數據構建生成式AI,瞭解更多關於“在生成式AI中以編程方式擴展人類偏好和對齊”的信息。
📈 結果
Alpaca-Eval 2.0基準測試
- 基礎模型得分:Mistral-7B-Instruct-v0.2 得分為 14.72。
- 應用方法後得分:本模型得分為 30.22,排名第3,在發佈時是開源基礎模型中得分最高的。
- 後處理得分:使用PairRM-best-of-16對模型輸出進行後處理(生成16個回覆並選擇PairRM評分最高的回覆),得分為 34.86,排名第2。排行榜上的最佳模型是 “gpt-4-turbo”,它也是最優回覆的評判者。
基準測試說明
我們認識到Alpaca-Eval 2.0基準測試不能完全涵蓋大語言模型的所有能力和性能。但在當前旨在與通用“人類偏好”對齊的工作中,Alpaca-Eval 2.0是一個合適且具有代表性的基準。未來,我們期待社區在新的對齊方向上做出更多貢獻,並使用其他合適的基準進行評估。
回覆長度影響
Alpaca-Eval 2.0評估器 “gpt-4-turbo” 對較長回覆有偏好。這種傾向可能也存在於我們選擇的獎勵模型中,導致我們的模型在DPO迭代後生成更長的回覆,這可能是我們在排行榜上排名較高的因素之一。未來的工作可以包括控制回覆長度和其他相關指標的措施。
⚠️ 侷限性
本模型是一個快速演示,展示了可以使用較小的專業化獎勵模型以編程方式對齊大語言模型。它沒有任何審核機制。我們期待繼續與研究社區和客戶合作,探索使模型遵守規則的最佳方法,以便在需要審核輸出的環境中部署。
🙏 相關工作與致謝
📦 其他版本
👥 Snorkel AI團隊
Hoang Tran, Chris Glaze, Braden Hancock
如果你覺得這項工作有用,請引用 我們的工作:
@techreport{viethoangtranduong,
author = {Tran, Hoang and Glaze, Chris, and Hancock, Braden},
title = {Iterative DPO Alignment},
institution = {Snorkel AI},
year = {2023},
}
📄 許可證
本項目採用Apache-2.0許可證。