reward - model - deberta - v3 - baseオープンソース報酬モデル - 人間の好みの回答を予測する実用的なツール

ホーム

Reward Model Deberta V3 Base

OpenAssistantによって開発

人間のフィードバックに基づいて訓練された報酬モデルで、人間が好む回答を予測するために使用されます。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #人間フィードバック報酬モデル #質問応答評価 #RLHF訓練

ダウンロード数 1,193

リリース時間 : 1/15/2023

モデル概要

この報酬モデルは、与えられた質問に対して、人間がより良いと思う生成された回答を予測できるように訓練されています。質問応答モデルの評価や、人間のフィードバックに基づく強化学習（RLHF）における報酬評点に適しています。

モデル特徴

人間フィードバック訓練

モデルは人間のフィードバックデータに基づいて訓練されており、人間が好む回答を正確に予測できます。

複数データセット訓練

webgpt_comparisons、summarize_from_feedback、synthetic - instruct - gptj - pairwiseなどの複数のデータセットで訓練されています。

異分野適用

質問応答や要約生成などの様々なテキスト生成タスクの評価に適用できます。

モデル能力

回答品質評価

テキスト生成評点

強化学習報酬計算

使用事例

質問応答システム

質問応答モデル評価

異なる質問応答モデルが生成した回答の品質を評価します。

強化学習

RLHF報酬モデル

人間のフィードバックに基づく強化学習において報酬関数として使用されます。

モデル	WebGPT	Summary	SytheticGPT
electra-large-discriminator	59.30	68.66	99.85
deberta-v3-large	61.13	72.23	99.94
deberta-v3-base	59.07	66.84	99.85

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Reward Model Deberta V3 Base

モデル概要

モデル特徴

モデル能力

使用事例

🚀 人間のフィードバックから学習した報酬モデル

🚀 クイックスタート

使い方

📚 ドキュメント

性能

📄 ライセンス