R

RM Gemma 2B

由weqweasdas開發
基於google/gemma-2b-it訓練的獎勵模型,用於評估文本生成質量
下載量 2,618
發布時間 : 2/25/2024

模型概述

本獎勵模型基於Gemma-2B基礎模型訓練而成,專門用於評估和排序不同文本生成結果的質量,適用於強化學習人類反饋(RLHF)場景。

模型特點

多源數據集訓練
整合了HH-RLHF、SHP、UltraFeedback等6個高質量數據集,總計25萬組對比數據
嚴格數據清洗
採用多種策略確保對比數據的質量,如保留顯著差異樣本、刪除等分樣本等
高效訓練配置
採用學習率1e-5、批量大小256、餘弦學習率衰減等優化訓練過程

模型能力

文本質量評分
生成結果排序
對話響應評估
強化學習反饋

使用案例

強化學習
拒絕採樣微調
用於RLHF流程中的拒絕採樣階段,篩選高質量生成結果
可直接用於RAFT(獎勵排序微調)算法
對話系統
聊天機器人響應評估
評估不同聊天機器人響應的質量,選擇最佳回覆
在MT Bench等基準測試中表現良好
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase