R

Reward Model Deberta V3 Large V2

OpenAssistantによって開発
この報酬モデルは、与えられた質問に対して人間がどの生成回答をより良いと評価するかを予測するように訓練されています。質問応答評価、RLHF報酬スコアリング、有害回答検出に適しています。
ダウンロード数 11.15k
リリース時間 : 2/1/2023

モデル概要

複数の人間フィードバックデータセットで訓練されたシーケンス分類モデルで、生成回答の品質と安全性を評価します。

モデル特徴

マルチデータセット訓練
WebGPT比較、要約フィードバック、合成命令、人間選好データセットを統合
毒性検出
潜在的に有害または不適切な回答を識別可能
クロスドメイン適用
質問応答、要約、対話シナリオで良好なパフォーマンス

モデル能力

回答品質スコアリング
回答比較
有害コンテンツ検出
RLHF報酬信号生成

使用事例

質問応答システム
回答品質評価
AI生成回答の人間選好度を評価
WebGPTデータセットで61.57%の精度を達成
コンテンツセキュリティ
有害回答識別
攻撃的または不適切な内容の回答を検出
建設的な回答と有害な回答を効果的に区別
強化学習
RLHF報酬モデル
人間フィードバックからの強化学習用トレーニング信号を提供
Anthropic RLHFデータセットで69.25%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase