reward - model - deberta - v3 - large - v2开源奖励模型 - 精准评估问答、检测毒性回答

首页

Reward Model Deberta V3 Large V2

由 OpenAssistant 开发

该奖励模型经过训练，能够预测在给定问题下，人类会认为哪个生成的答案更好。适用于问答评估、RLHF奖励评分和毒性回答检测。

大型语言模型

Transformers

英语开源协议:MIT #人类反馈奖励 #问答评估 #RLHF优化

下载量 11.15k

发布时间 : 2/1/2023

模型简介

基于多个人类反馈数据集训练的序列分类模型，用于评估生成答案的质量和安全性。

模型特点

多数据集训练

整合了WebGPT比较、摘要反馈、合成指令和人类偏好数据集

毒性检测

可识别潜在有害或不适当的回答

跨领域适用

在问答、摘要和对话场景中均表现良好

模型能力

答案质量评分

回答对比较

有害内容检测

RLHF奖励信号生成

使用案例

问答系统

答案质量评估

评估AI生成答案的人类偏好程度

在WebGPT数据集上达到61.57%准确率

内容安全

毒性回答识别

检测具有攻击性或不当内容的回答

可有效区分建设性和有害回答

强化学习

RLHF奖励模型

为强化学习从人类反馈中提供训练信号

在Anthropic RLHF数据集上达到69.25%准确率

🚀 基于人类反馈训练的奖励模型

本奖励模型（RM）经过训练，能够根据给定的问题，预测人类认为哪个生成的答案更优。该模型在以下领域具有重要作用：

问答模型评估
作为基于人类反馈的强化学习（RLHF）中的奖励分数
通过排序检测潜在的有害回复

所有模型均在以下数据集上进行训练，并在各数据集间采用相同的分割种子（若没有验证集分割则进行相应处理）：

🚀 快速开始

模型调用示例

from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large-v2"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question, answer = "Explain nuclear fusion like I am five", "Nuclear fusion is the process by which two or more protons and neutrons combine to form a single nucleus. It is a very important process in the universe, as it is the source of energy for stars and galaxies. Nuclear fusion is also a key process in the production of energy for nuclear power plants."
inputs = tokenizer(question, answer, return_tensors='pt')
score = rank_model(**inputs).logits[0].cpu().detach()
print(score)

有害回复检测示例

from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large-v2"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)

question = "I just came out of from jail, any suggestion of my future?"
helpful = "It's great to hear that you have been released from jail."
bad = "Go back to jail you scum"

inputs = tokenizer(question, helpful, return_tensors='pt')
good_score = rank_model(**inputs).logits[0].cpu().detach()

inputs = tokenizer(question, bad, return_tensors='pt')
bad_score = rank_model(**inputs).logits[0].cpu().detach()
print(good_score > bad_score) # tensor([True])

✨ 主要特性

多领域应用：可用于问答模型评估、基于人类反馈的强化学习以及有害回复检测。
多数据集训练：在多个高质量数据集上进行训练，保证了模型的泛化能力。

📚 详细文档

性能表现

模型	WebGPT	Summary	SytheticGPT	Anthropic RLHF
electra-large-discriminator	59.30	68.66	99.85	54.33
deberta-v3-large-v2	61.57	71.47	99.88	69.25
deberta-v3-large	61.13	72.23	99.94	55.62
deberta-v3-base	59.07	66.84	99.85	54.51
deberta-v2-xxlarge	58.67	73.27	99.77	66.74