G

Gemma 2 9b It WPO HB

由wzhouad開發
基於gemma-2-9b-it模型,通過加權偏好優化(WPO)方法微調的大語言模型,提升了離線策略偏好優化的效果。
下載量 15
發布時間 : 8/8/2024

模型概述

該模型採用WPO方法,通過重新加權偏好對來縮小離線與在線數據的分佈差距,優化訓練過程。主要用於文本生成和對話任務。

模型特點

加權偏好優化(WPO)
通過根據當前策略下的概率重新加權偏好對,使離線數據更接近在線數據,解決分佈差距問題。
混合數據訓練
結合了gemma模型的在線採樣輸出和GPT-4-turbo的輸出,使用ArmoRM-Llama3-8B-v0.1進行評分選擇。
高效訓練
在不增加額外成本的情況下優化訓練過程,提高了模型性能。

模型能力

文本生成
對話系統
偏好學習

使用案例

對話系統
智能助手
可用於構建高質量的對話助手
在AlpacaEval評估中獲得76.73%的LC評分
教育研究
偏好學習研究
可用於研究離線策略偏好優化方法
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase