オープンソースBeaver-7B-V1.0-Reward偏好モデル - Beaverモデルの安全アルゴリズムにおける最適化をサポート

ホーム

Beaver 7b V1.0 Reward

PKU-Alignmentによって開発

PKU-SafeRLHFデータセットで訓練された選好モデルで、安全RLHFアルゴリズムにおいてBeaverモデルの最適化を支援

大規模言語モデル

Safetensors

英語#安全RLHF報酬評価 #LLaMAファインチューニング #マルチターン対話評価

ダウンロード数 3,477

リリース時間 : 7/8/2023

モデル概要

このモデルはTransformerアーキテクチャに基づく報酬モデルで、主に対話生成コンテンツの品質と安全性を評価し、強化学習にフィードバック信号を提供します。

モデル特徴

安全強化学習サポート

安全RLHFアルゴリズム専用設計で、モデルの最適化プロセス中に安全性を維持可能

高品質選好学習

大規模な人間フィードバックデータで訓練され、対話コンテンツの品質を正確に評価可能

マルチモデル互換性

Beaverシリーズモデルと連携可能で、LLaMAとAlpacaアーキテクチャをサポート

モデル能力

対話コンテンツ評価

安全評価

選好学習

強化学習フィードバック

使用事例

AIセキュリティ

安全対話システム訓練

RLHF訓練プロセス中に安全評価を提供し、有害コンテンツ生成を防止

対話システムの安全性向上

対話システム開発

対話品質評価

AIアシスタントの応答品質を評価し、モデル最適化の方向性を提供

対話システムの有用性と関連性向上

🚀 🦫 ビーバーの報酬モデル

ビーバーの報酬モデルは、人間のフィードバックを用いた強化学習において、安全な学習をサポートするためのモデルです。このモデルは特定のデータセットを用いて訓練され、ビーバーモデルがより有益な応答を生成するのに役立ちます。

✨ 主な機能

PKU-SafeRLHF データセットを使用して訓練された嗜好モデルです。
安全なRLHFアルゴリズムにおいて役割を果たし、ビーバーモデルがより有益な応答を生成するのを支援します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer
from safe_rlhf.models import AutoModelForScore

model = AutoModelForScore.from_pretrained('PKU-Alignment/beaver-7b-v1.0-reward', torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained('PKU-Alignment/beaver-7b-v1.0-reward')

input = 'BEGINNING OF CONVERSATION: USER: hello ASSISTANT:Hello! How can I help you today?'

input_ids = tokenizer(input, return_tensors='pt')
output = model(**input_ids)
print(output)

# ScoreModelOutput(
#     scores=tensor([[[-19.7500],
#          [-19.3750],
#          [-20.1250],
#          [-18.0000],
#          [-20.0000],
#          [-23.8750],
#          [-23.5000],
#          [-22.0000],
#          [-21.0000],
#          [-20.1250],
#          [-23.7500],
#          [-21.6250],
#          [-21.7500],
#          [-12.9375],
#          [ -6.4375],
#          [ -8.1250],
#          [ -7.3438],
#          [ -9.1875],
#          [-13.6250],
#          [-10.5625],
#          [ -9.9375],
#          [ -6.4375],
#          [ -6.0938],
#          [ -5.8438],
#          [ -6.6562],
#          [ -5.9688],
#          [ -9.1875],
#          [-11.4375]]], grad_fn=<ToCopyBackward0>),
#     end_scores=tensor([[-11.4375]], grad_fn=<ToCopyBackward0>),
#     last_hidden_state=tensor([[[ 0.7461, -0.6055, -0.4980,  ...,  0.1670,  0.7812, -0.3242],
#          [ 0.7383, -0.5391, -0.1836,  ..., -0.1396,  0.5273, -0.2256],
#          [ 0.6836, -0.7031, -0.3730,  ...,  0.2100,  0.5000, -0.6328],
#          ...,
#          [-1.7969,  1.0234,  1.0234,  ..., -0.8047,  0.2500, -0.8398],
#          [ 2.0469, -1.3203,  0.8984,  ..., -0.7734, -1.4141, -1.6797],
#          [ 4.3438, -0.6953,  0.9648,  ..., -0.1787,  0.6680, -3.0000]]],
#        dtype=torch.bfloat16, grad_fn=<ToCopyBackward0>),
#     end_last_hidden_state=tensor([[ 4.3438, -0.6953,  0.9648,  ..., -0.1787,  0.6680, -3.0000]],
#        dtype=torch.bfloat16, grad_fn=<ToCopyBackward0>),
#     end_index=tensor([27])
# )