reward-model-deberta-v3-largeオープンソース報酬モデル - 人間の評判に基づく質の高い回答を的確に予測

ホーム

Reward Model Deberta V3 Large

OpenAssistantによって開発

この報酬モデルは、与えられた質問に対して、人間の評価者がどの生成された回答をより良いと判断するかを予測できるように訓練されています。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #RLHF報酬評点 #質問応答品質評価 #複数データセット訓練

ダウンロード数 796

リリース時間 : 1/15/2023

モデル概要

人間のフィードバックを基に訓練された報酬モデルで、質問応答モデルの品質を評価するか、RLHFにおける報酬スコアとして使用されます。人間の好みに基づく回答のソート予測をサポートします。

モデル特徴

複数データセット訓練

WebGPT、要約フィードバック、合成命令の3つのデータセットで共同訓練されています。

高性能アーキテクチャ

DeBERTa-v3-largeアーキテクチャを採用しており、各種ベンチマークテストで優れた性能を発揮します。

RLHF互換性

強化学習の人間フィードバックプロセスにおける報酬関数として直接使用できます。

モデル能力

回答品質評価

回答ペアのソート

人間の好みの予測

使用事例

質問応答システム

回答品質評点

AIが生成した複数の回答に対して品質評点を付けます。

人間の評価者の好みを正確に予測します。

強化学習

RLHF報酬信号

強化学習に人間のフィードバックに代わる報酬信号を提供します。

モデルのアライメントプロセスを加速します。

🚀 人間のフィードバックから学習した報酬モデル

質問が与えられたときに、人間がどの生成された回答がより良いと判断するかを予測するように学習された報酬モデル（RM）です。

RMは以下の分野で役立ちます：

質問応答（QA）モデルの評価
強化学習による人間のフィードバック（RLHF）における報酬スコアとしての利用

すべてのモデルは、これらのデータセットで、データセット間で同じ分割シードを使用して学習されています（検証分割が利用できない場合）。

🚀 クイックスタート

この報酬モデルは、質問に対する生成された回答の質を予測するために使用できます。以下に、具体的な使用方法を説明します。

💻 使用例

基本的な使用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question, answer = "Explain nuclear fusion like I am five", "Nuclear fusion is the process by which two or more protons and neutrons combine to form a single nucleus. It is a very important process in the universe, as it is the source of energy for stars and galaxies. Nuclear fusion is also a key process in the production of energy for nuclear power plants."
inputs = tokenizer(question, answer, return_tensors='pt')
score = rank_model(**inputs).logits[0].cpu().detach()
print(score)