R

Reward Model Deberta V3 Large

OpenAssistantによって開発
この報酬モデルは、与えられた質問に対して、人間の評価者がどの生成された回答をより良いと判断するかを予測できるように訓練されています。
ダウンロード数 796
リリース時間 : 1/15/2023

モデル概要

人間のフィードバックを基に訓練された報酬モデルで、質問応答モデルの品質を評価するか、RLHFにおける報酬スコアとして使用されます。人間の好みに基づく回答のソート予測をサポートします。

モデル特徴

複数データセット訓練
WebGPT、要約フィードバック、合成命令の3つのデータセットで共同訓練されています。
高性能アーキテクチャ
DeBERTa-v3-largeアーキテクチャを採用しており、各種ベンチマークテストで優れた性能を発揮します。
RLHF互換性
強化学習の人間フィードバックプロセスにおける報酬関数として直接使用できます。

モデル能力

回答品質評価
回答ペアのソート
人間の好みの予測

使用事例

質問応答システム
回答品質評点
AIが生成した複数の回答に対して品質評点を付けます。
人間の評価者の好みを正確に予測します。
強化学習
RLHF報酬信号
強化学習に人間のフィードバックに代わる報酬信号を提供します。
モデルのアライメントプロセスを加速します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase