reward-model-deberta-v3-large開源獎勵模型 - 精準預測人類評判下的優質答案

首頁

Reward Model Deberta V3 Large

由OpenAssistant開發

該獎勵模型經過訓練，能夠預測在給定問題下人類評判者會認為哪個生成的答案更好。

大型語言模型

Transformers

英語開源協議:MIT #RLHF獎勵評分 #問答質量評估 #多數據集訓練

下載量 796

發布時間 : 1/15/2023

模型概述

基於人類反饋訓練的獎勵模型，用於評估問答模型質量或作為RLHF中的獎勵分數。支持預測人類偏好的答案排序。

模型特點

多數據集訓練

在WebGPT、摘要反饋和合成指令三個數據集上聯合訓練

高性能架構

採用DeBERTa-v3-large架構，在各項基準測試中表現優異

RLHF兼容

可直接作為強化學習人類反饋流程中的獎勵函數

模型能力

答案質量評估

答案對排序

人類偏好預測

使用案例

問答系統

答案質量評分

對AI生成的多個答案進行質量評分

準確預測人類評判者的偏好

強化學習

RLHF獎勵信號

為強化學習提供人類反饋的替代獎勵信號

加速模型對齊過程

🚀 基於人類反饋訓練的獎勵模型

本獎勵模型（RM）經過訓練，能夠根據給定的問題，預測人類認為哪個生成的答案更優。

獎勵模型在以下領域發揮著重要作用：

問答模型評估
在基於人類反饋的強化學習（RLHF）中作為獎勵分數

所有模型均在以下數據集上進行訓練，並在各數據集間採用相同的分割種子（若沒有驗證集分割，則進行相應處理）：

🚀 快速開始

模型使用方法

以下是使用獎勵模型的代碼示例：

from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question, answer = "Explain nuclear fusion like I am five", "Nuclear fusion is the process by which two or more protons and neutrons combine to form a single nucleus. It is a very important process in the universe, as it is the source of energy for stars and galaxies. Nuclear fusion is also a key process in the production of energy for nuclear power plants."
inputs = tokenizer(question, answer, return_tensors='pt')
score = rank_model(**inputs).logits[0].cpu().detach()
print(score)

✨ 主要特性

應用領域廣泛

獎勵模型可用於問答模型評估，同時能在基於人類反饋的強化學習（RLHF）中作為獎勵分數，為模型訓練提供重要支持。

多數據集訓練

模型在多個數據集上進行訓練，包括 webgpt_comparisons、summarize_from_feedback 和 synthetic-instruct-gptj-pairwise，確保了模型的泛化能力。

📚 詳細文檔

性能表現

以下是各模型在驗證集分割上的準確率：

模型	WebGPT	Summary	SytheticGPT
electra-large-discriminator	59.30	68.66	99.85
deberta-v3-large	61.13	72.23	99.94
deberta-v3-base	59.07	66.84	99.85

值得注意的是，SytheticGPT 在所選和被拒對之間可能存在某種表面模式，使得區分更好的答案變得相對容易。

📄 許可證

本項目採用 MIT 許可證。

🔍 補充信息

屬性	詳情
模型類型	獎勵模型（Reward Model）
訓練數據	webgpt_comparisons、summarize_from_feedback、synthetic-instruct-gptj-pairwise
評估指標	準確率（Accuracy）
標籤	獎勵模型（Reward Model）、基於人類反饋的強化學習（RLHF）