Reward Model Deberta V3 Large
この報酬モデルは、与えられた質問に対して、人間の評価者がどの生成された回答をより良いと判断するかを予測できるように訓練されています。
ダウンロード数 796
リリース時間 : 1/15/2023
モデル概要
人間のフィードバックを基に訓練された報酬モデルで、質問応答モデルの品質を評価するか、RLHFにおける報酬スコアとして使用されます。人間の好みに基づく回答のソート予測をサポートします。
モデル特徴
複数データセット訓練
WebGPT、要約フィードバック、合成命令の3つのデータセットで共同訓練されています。
高性能アーキテクチャ
DeBERTa-v3-largeアーキテクチャを採用しており、各種ベンチマークテストで優れた性能を発揮します。
RLHF互換性
強化学習の人間フィードバックプロセスにおける報酬関数として直接使用できます。
モデル能力
回答品質評価
回答ペアのソート
人間の好みの予測
使用事例
質問応答システム
回答品質評点
AIが生成した複数の回答に対して品質評点を付けます。
人間の評価者の好みを正確に予測します。
強化学習
RLHF報酬信号
強化学習に人間のフィードバックに代わる報酬信号を提供します。
モデルのアライメントプロセスを加速します。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98