G

Gemma 2 9B It SPPO Iter3

由UCLA-AGI開發
基於自博弈偏好優化方法在第三輪迭代中開發的89億參數語言模型,以google/gemma-2-9b-it為起點,使用UltraFeedback數據集進行微調
下載量 6,704
發布時間 : 6/29/2024

模型概述

該模型採用自博弈偏好優化方法進行對齊優化,主要用於英語文本生成任務

模型特點

自博弈偏好優化
採用SPPO方法進行三輪迭代優化,提升模型性能
高質量數據集
使用UltraFeedback數據集和合成數據進行訓練
迭代改進
經過三輪迭代,每輪性能均有提升

模型能力

英語文本生成
對話系統
內容創作

使用案例

對話系統
智能客服
用於構建英語智能客服對話系統
內容生成
文章創作
輔助英語文章寫作和內容生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase