G

Gemma 2 9b It SimPO

由princeton-nlp開發
基於SimPO目標在gemma2-ultrafeedback-armorm數據集上微調的Gemma 2.9B模型,用於偏好優化任務
下載量 21.34k
發布時間 : 7/16/2024

模型概述

該模型是使用SimPO(簡單偏好優化)算法在Gemma 2.9B基礎上微調得到的,旨在通過偏好優化數據集增強大語言模型的訓練效果。

模型特點

SimPO優化算法
採用簡單偏好優化算法,無需參考模型,通過獎勵函數與生成概率對齊提升性能
高效訓練
在8塊H100 GPU上僅需約100分鐘即可完成微調
性能提升
相比基礎模型,在多個評估指標上表現更優

模型能力

文本生成
偏好優化
問答系統
對話系統

使用案例

對話系統
智能問答
用於構建知識問答系統
在AE2 LC評估中達到72.4分
內容生成
長文本生成
生成較長的連貫文本
平均生成長度1833個token
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase