R

Reward Model Deberta V3 Large V2

由 OpenAssistant 开发
该奖励模型经过训练,能够预测在给定问题下,人类会认为哪个生成的答案更好。适用于问答评估、RLHF奖励评分和毒性回答检测。
下载量 11.15k
发布时间 : 2/1/2023

模型简介

基于多个人类反馈数据集训练的序列分类模型,用于评估生成答案的质量和安全性。

模型特点

多数据集训练
整合了WebGPT比较、摘要反馈、合成指令和人类偏好数据集
毒性检测
可识别潜在有害或不适当的回答
跨领域适用
在问答、摘要和对话场景中均表现良好

模型能力

答案质量评分
回答对比较
有害内容检测
RLHF奖励信号生成

使用案例

问答系统
答案质量评估
评估AI生成答案的人类偏好程度
在WebGPT数据集上达到61.57%准确率
内容安全
毒性回答识别
检测具有攻击性或不当内容的回答
可有效区分建设性和有害回答
强化学习
RLHF奖励模型
为强化学习从人类反馈中提供训练信号
在Anthropic RLHF数据集上达到69.25%准确率
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase