H

Hh Rlhf Rm Open Llama 3b

weqweasdasによって開発
LMFlowフレームワークに基づいて訓練された報酬モデルで、HH - RLHFデータセット(有用な部分のみ)を対象とし、open_llama_3bをベースモデルとして訓練され、良好な汎化能力を持っています。
ダウンロード数 483
リリース時間 : 7/14/2023

モデル概要

この報酬モデルは対話応答の品質を評価するために使用され、強化学習における報酬信号生成に利用でき、複数のデータセットをサポートします。

モデル特徴

汎化能力が強い
HH - RLHFデータセットで訓練された報酬モデルは、オープンアシスタントやチャットボットのデータセットでも、直接これらのデータセットで訓練されていなくても優れた性能を発揮します。
データ使用効率が高い
テキストを結合して1024サイズのブロックに分割することで、最長のテキストで埋めるのではなく、データ使用効率を向上させます。
高い正確率
HH - RLHFテストセットで75.48%の正確率を達成し、評価損失は0.5です。

モデル能力

対話応答品質評価
強化学習報酬信号生成
複数データセット汎化

使用事例

強化学習
RAFT訓練
この報酬モデルをRAFTフレームワークで使用して高品質の応答を生成し、GPT - Neo - 2.7BやLLaMA - 7Bモデルの微調整に利用します。
報酬曲線は、モデルが生成された応答の品質を効果的に向上させることができることを示しています。
対話システム
対話応答評価
対話システムで生成された応答の品質を評価し、最適な応答を選択します。
オープンアシスタントやチャットボットのデータセットで優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase