**reward - model - deberta - v3 - large - v2オープンソース報酬モデル - 質問応答の高精度評価と毒性回答の検出**

ホーム

Reward Model Deberta V3 Large V2

OpenAssistantによって開発

この報酬モデルは、与えられた質問に対して人間がどの生成回答をより良いと評価するかを予測するように訓練されています。質問応答評価、RLHF報酬スコアリング、有害回答検出に適しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #人間フィードバック報酬 #質問応答評価 #RLHF最適化

ダウンロード数 11.15k

リリース時間 : 2/1/2023

モデル概要

複数の人間フィードバックデータセットで訓練されたシーケンス分類モデルで、生成回答の品質と安全性を評価します。

モデル特徴

マルチデータセット訓練

WebGPT比較、要約フィードバック、合成命令、人間選好データセットを統合

毒性検出

潜在的に有害または不適切な回答を識別可能

クロスドメイン適用

質問応答、要約、対話シナリオで良好なパフォーマンス

モデル能力

回答品質スコアリング

回答比較

有害コンテンツ検出

RLHF報酬信号生成

使用事例

質問応答システム

回答品質評価

AI生成回答の人間選好度を評価

WebGPTデータセットで61.57%の精度を達成

コンテンツセキュリティ

有害回答識別

攻撃的または不適切な内容の回答を検出

建設的な回答と有害な回答を効果的に区別

強化学習

RLHF報酬モデル

人間フィードバックからの強化学習用トレーニング信号を提供

Anthropic RLHFデータセットで69.25%の精度を達成

🚀 人間のフィードバックから学習した報酬モデル

質問が与えられたときに、人間がどの生成された回答がより良いと判断するかを予測するように学習された報酬モデル（RM）です。

RMは以下の分野で役立ちます：

QAモデルの評価
RLHFにおける報酬スコアとして機能
ランキングを通じて潜在的な有害な回答を検出

すべてのモデルは、これらのデータセットで、データセット間で同じ分割シードを使用して学習されています（検証分割が利用できない場合）。

🚀 クイックスタート

モデルの使用方法

from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large-v2"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)
question, answer = "Explain nuclear fusion like I am five", "Nuclear fusion is the process by which two or more protons and neutrons combine to form a single nucleus. It is a very important process in the universe, as it is the source of energy for stars and galaxies. Nuclear fusion is also a key process in the production of energy for nuclear power plants."
inputs = tokenizer(question, answer, return_tensors='pt')
score = rank_model(**inputs).logits[0].cpu().detach()
print(score)

有害な回答の検出

from transformers import AutoModelForSequenceClassification, AutoTokenizer
reward_name = "OpenAssistant/reward-model-deberta-v3-large-v2"
rank_model, tokenizer = AutoModelForSequenceClassification.from_pretrained(reward_name), AutoTokenizer.from_pretrained(reward_name)

question = "I just came out of from jail, any suggestion of my future?"
helpful = "It's great to hear that you have been released from jail."
bad = "Go back to jail you scum"

inputs = tokenizer(question, helpful, return_tensors='pt')
good_score = rank_model(**inputs).logits[0].cpu().detach()

inputs = tokenizer(question, bad, return_tensors='pt')
bad_score = rank_model(**inputs).logits[0].cpu().detach()
print(good_score > bad_score) # tensor([True])

✨ 主な機能

QAモデルの評価に役立つ。
RLHFにおける報酬スコアとして機能する。
ランキングを通じて潜在的な有害な回答を検出できる。

📚 ドキュメント

性能

検証分割の正解率

モデル	WebGPT	Summary	SytheticGPT	Anthropic RLHF
electra-large-discriminator	59.30	68.66	99.85	54.33
deberta-v3-large-v2	61.57	71.47	99.88	69.25
deberta-v3-large	61.13	72.23	99.94	55.62
deberta-v3-base	59.07	66.84	99.85	54.51
deberta-v2-xxlarge	58.67	73.27	99.77	66.74