G

Gpt2 Large Harmless Reward Model

Ray2333によって開発
Anthropic/hh - rlhfの無害データセットを基に訓練されたGPT2大規模モデルで、有害応答検出または人間のフィードバックに基づく強化学習(RLHF)に特化しています。
ダウンロード数 1,489
リリース時間 : 1/14/2024

モデル概要

このモデルはテストセットで0.73698の正確率を達成しており、他のより大規模なモデルに匹敵する性能を持っています。主に有害応答検出とRLHFタスクに使用されます。

モデル特徴

高い正確率
テストセットで0.73698の正確率を達成しており、より大規模なモデルに近い性能を持っています。
特化した訓練
Anthropic/hh - rlhfの無害データセットを基に特化して訓練され、有害応答検出に特化しています。
RLHFサポート
人間のフィードバックに基づく強化学習(RLHF)をサポートし、モデルのアライメントに使用できます。

モデル能力

有害応答検出
テキスト分類
強化学習フィードバック

使用事例

コンテンツセキュリティ
有害コンテンツフィルタリング
対話中の有害または不適切な応答を検出します。
有害コンテンツを正確に識別し、正確率は0.73698です。
AIアライメント
多目標アライメント
ICML 2024のRewards-in-Contextプロジェクトにおける多目標アライメント(特に「無害」と「有用」のアライメント)に使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase