R

Reward Model Deberta V3 Base

由 OpenAssistant 开发
基于人类反馈训练的奖励模型,用于预测人类偏好的答案
下载量 1,193
发布时间 : 1/15/2023

模型简介

该奖励模型经过训练,能够根据给定的问题预测人类认为哪个生成的答案更优。适用于问答模型评估和基于人类反馈的强化学习(RLHF)中的奖励评分。

模型特点

人类反馈训练
模型基于人类反馈数据进行训练,能够准确预测人类偏好的答案
多数据集训练
在webgpt_comparisons、summarize_from_feedback和synthetic-instruct-gptj-pairwise等多个数据集上进行训练
跨领域适用
适用于问答和摘要生成等多种文本生成任务的评估

模型能力

答案质量评估
文本生成评分
强化学习奖励计算

使用案例

问答系统
问答模型评估
评估不同问答模型生成的答案质量
强化学习
RLHF奖励模型
在基于人类反馈的强化学习中作为奖励函数
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase