G

GRM Gemma2 2B Rewardmodel Ft

由Ray2333開發
一個基於GRM-Gemma2-2B-sftreg微調的高性能2B參數獎勵模型,在獎勵基準測試中表現優異,超越多個8B模型
下載量 1,187
發布時間 : 10/23/2024

模型概述

該模型是基於Gemma2架構的2B參數獎勵模型,專門用於評估和評分文本生成質量,在對話、安全、推理等多個維度表現優異

模型特點

高性能
在獎勵基準測試中取得88.4分,超越多個8B獎勵模型和GPT4/Gemini
小模型優勢
作為2B參數模型,在小於3B的模型中取得SOTA性能
廣泛評估維度
在對話、困難對話、安全和推理等多個維度表現均衡

模型能力

文本質量評估
對話評分
安全內容識別
推理能力評估

使用案例

強化學習訓練
RLHF訓練
作為強化學習中的獎勵模型,指導語言模型優化
可幫助訓練出更符合人類偏好的語言模型
內容評估
對話質量評分
評估聊天機器人回覆的質量
在對話維度得分93.0,優於GPT4/Gemini
安全內容識別
識別潛在不安全或不適當的文本內容
安全維度得分92.2,表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase