G

GRM Gemma2 2B Rewardmodel Ft

由 Ray2333 开发
一个基于GRM-Gemma2-2B-sftreg微调的高性能2B参数奖励模型,在奖励基准测试中表现优异,超越多个8B模型
下载量 1,187
发布时间 : 10/23/2024

模型简介

该模型是基于Gemma2架构的2B参数奖励模型,专门用于评估和评分文本生成质量,在对话、安全、推理等多个维度表现优异

模型特点

高性能
在奖励基准测试中取得88.4分,超越多个8B奖励模型和GPT4/Gemini
小模型优势
作为2B参数模型,在小于3B的模型中取得SOTA性能
广泛评估维度
在对话、困难对话、安全和推理等多个维度表现均衡

模型能力

文本质量评估
对话评分
安全内容识别
推理能力评估

使用案例

强化学习训练
RLHF训练
作为强化学习中的奖励模型,指导语言模型优化
可帮助训练出更符合人类偏好的语言模型
内容评估
对话质量评分
评估聊天机器人回复的质量
在对话维度得分93.0,优于GPT4/Gemini
安全内容识别
识别潜在不安全或不适当的文本内容
安全维度得分92.2,表现优异
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase