Llama-3-OffsetBias-RM-8Bオープンソース報酬モデル - 精度の高いバイアス評価、より強力なロバスト性

ホーム

Llama 3 OffsetBias RM 8B

NCSOFTによって開発

OffsetBiasデータセットでトレーニングされた報酬モデルで、評価モデルのバイアスに対してより高いロバスト性を備えています

大規模言語モデル

Transformers

英語#バイアス耐性報酬モデル #マルチソースデータ融合 #命令アライメント評価

ダウンロード数 1,782

リリース時間 : 7/11/2024

モデル概要

このモデルはLlama-3アーキテクチャに基づく報酬モデルで、評価モデル時に一般的な様々なバイアスを軽減するために特別に設計されています。複数の高品質データセットを融合してトレーニングされており、公平な評価が必要なシナリオに特に適しています。

モデル特徴

バイアス耐性

評価モデルで一般的な様々なバイアスに特化して最適化され、より公平なスコアリングを提供します

マルチデータセット融合

UltraFeedback、HelpSteerなどの複数の高品質データセットを組み合わせてトレーニングされています

モデル融合技術

中間モデルと基本報酬モデルの融合を通じて最終モデルを獲得します

モデル能力

テキスト品質評価

対話応答スコアリング

安全性評価

推論能力評価

使用事例

AI対話評価

チャットボット応答スコアリング

チャットボットの返答の品質と関連性を評価します

RewardBenchチャット評価で97.21点を獲得

コンテンツ安全評価

有害コンテンツ検出

潜在的に有害または不適切なコンテンツを識別しスコアリングします

RewardBench安全性評価で89.01点を獲得

🚀 Llama-3-OffsetBias-RM-8B モデルカード

Llama-3-OffsetBias-RM-8B は、OffsetBias データセットを用いて学習された 報酬モデル です。評価モデルで一般的に見られるさまざまな評価 バイアス に対して、より堅牢になるように学習されています。このモデルは論文 OffsetBias: Leveraging Debiased Data for Tuning Evaluators で紹介されています。

📚 詳細ドキュメント

モデルの説明

Llama-3-OffsetBias-RM-8B は、sfairXC/FsfairX-LLaMA3-RM-v0.1 をベースモデルとして使用しており、これは Meta Llama 3 をベースに構築されています。中間報酬モデルは、Llama-3-8B-Instruct から、FsfairX-LLaMA3-RM モデルの学習に使用されるデータセットのサブセットと NCSOFT/offsetbias データセットを組み合わせて学習されます。その後、この中間モデルは FsfairX-LLaMA3-RM モデルとマージされ、Llama-3-OffsetBias-RM-8B が作成されます。

属性	详情
開発者	NC Research
言語 (NLP)	英語
ライセンス	META LLAMA 3 COMMUNITY LICENSE AGREEMENT
ファインチューニング元のモデル	sfairXC/FsfairX-LLaMA3-RM-v0.1

モデルのソース

💻 リポジトリ: https://github.com/ncsoft/offsetbias
📜 論文: OffsetBias: Leveraging Debiased Data for Tuning Evaluators
🤗 データセット: https://huggingface.co/datasets/NCSOFT/offsetbias

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, pipeline
import torch

model_name = "NCSOFT/Llama-3-OffsetBias-RM-8B"
rm_tokenizer = AutoTokenizer.from_pretrained(model_name)
rm_pipe = pipeline(
    "sentiment-analysis",
    model=model_name,
    device="auto",
    tokenizer=rm_tokenizer,
    model_kwargs={"torch_dtype": torch.bfloat16}
)

pipe_kwargs = {
    "return_all_scores": True,
    "function_to_apply": "none",
    "batch_size": 1
}

chat = [
 {"role": "user", "content": "Hello, how are you?"},
 {"role": "assistant", "content": "I'm doing great. How can I help you today?"},
 {"role": "user", "content": "I'd like to show off how chat templating works!"},
]

test_texts = [rm_tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(rm_tokenizer.bos_token, "")]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]

🔧 技術詳細

RewardBench の結果

指標	スコア
Chat	97.21
Chat Hard	80.70
Safety	89.01
Reasoning	90.60

EvalBiasBench の結果

指標	スコア
Length	82.4
Concreteness	92.9
Empty Reference	46.2
Content Continuation	100.0
Nested Instruction	83.3
Familiar Knowledge	58.3

📄 ライセンス

このモデルは META LLAMA 3 COMMUNITY LICENSE AGREEMENT の下で提供されています。

📚 引用

@misc{park2024offsetbias,
      title={OffsetBias: Leveraging Debiased Data for Tuning Evaluators},
      author={Junsoo Park and Seungyeon Jwa and Meiying Ren and Daeyoung Kim and Sanghyuk Choi},
      year={2024},
      eprint={2407.06551},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}