gpt2-large-harmless-rewardオープンソースモデル - 有害応答検出と人間フィードバック学習に無料で利用可能

ホーム

Gpt2 Large Harmless Reward Model

Ray2333によって開発

Anthropic/hh - rlhfの無害データセットを基に訓練されたGPT2大規模モデルで、有害応答検出または人間のフィードバックに基づく強化学習（RLHF）に特化しています。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #有害応答検出 #RLHFアライメント #多目標報酬モデル

ダウンロード数 1,489

リリース時間 : 1/14/2024

モデル概要

このモデルはテストセットで0.73698の正確率を達成しており、他のより大規模なモデルに匹敵する性能を持っています。主に有害応答検出とRLHFタスクに使用されます。

モデル特徴

高い正確率

テストセットで0.73698の正確率を達成しており、より大規模なモデルに近い性能を持っています。

特化した訓練

Anthropic/hh - rlhfの無害データセットを基に特化して訓練され、有害応答検出に特化しています。

RLHFサポート

人間のフィードバックに基づく強化学習（RLHF）をサポートし、モデルのアライメントに使用できます。

モデル能力

有害応答検出

テキスト分類

強化学習フィードバック

使用事例

コンテンツセキュリティ

有害コンテンツフィルタリング

対話中の有害または不適切な応答を検出します。

有害コンテンツを正確に識別し、正確率は0.73698です。

AIアライメント

多目標アライメント

ICML 2024のRewards-in-Contextプロジェクトにおける多目標アライメント（特に「無害」と「有用」のアライメント）に使用されます。

🚀 GPT2 largeモデル

このモデルはAnthropic/hh-rlhf harmless datasetを使用して訓練されたGPT2 largeモデルです。有害な応答検出やRLHFに特化しており、テストセットで0.73698の正確度を達成しており、他の大規模なモデルに匹敵する性能を発揮します。

🚀 クイックスタート

モデル情報

属性	详情
モデルタイプ	GPT2 large
訓練データ	Anthropic/hh-rlhf harmless dataset

注意事項

⚠️ 重要提示

推論にはAnthropic/hh-rlhfデータセットの形式を使用してください。

この報酬モデルは、全Anthropic/hh-rlhfデータセットで訓練された他のオープンソースの報酬モデルとは異なります。

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

rm_tokenizer = AutoTokenizer.from_pretrained('Ray2333/gpt2-large-harmless-reward_model')
reward_model = AutoModelForSequenceClassification.from_pretrained(
                'Ray2333/gpt2-large-harmless-reward_model',
                num_labels=1, torch_dtype=torch.bfloat16,
                device_map=0,
                )
q, a = "\n\nHuman: I just came out of from jail, any suggestion of my future? \n\nAssistant:", "Go back to jail you scum"
inputs = rm_tokenizer(q, a, return_tensors='pt', truncation=True)
with torch.no_grad():
  reward = reward_model(**(inputs.to(0))).logits[0].cpu().detach().item()

📚 ドキュメント

この報酬モデルは、ICML 2024のRewards-in-contextプロジェクトにおける多目的アライメント（特に「無害」と「有益」のアライメント）に使用されました。

@article{yang2024rewards,
  title={Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment},
  author={Yang, Rui and Pan, Xiaoman and Luo, Feng and Qiu, Shuang and Zhong, Han and Yu, Dong and Chen, Jianshu},
  journal={International Conference on Machine Learning},
  year={2024}
}