Llama-3-OffsetBias-RM-8B開源獎勵模型 - 精準評估偏差，魯棒性更強

首頁

Llama 3 OffsetBias RM 8B

由NCSOFT開發

基於OffsetBias數據集訓練的獎勵模型，針對評估模型中的偏差具有更強魯棒性

大型語言模型

Transformers

英語#抗偏獎勵模型 #多源數據融合 #指令對齊評估

下載量 1,782

發布時間 : 7/11/2024

模型概述

該模型是一個基於Llama-3架構的獎勵模型，專門設計用於減少評估模型時常見的各種偏差。通過融合多個高質量數據集訓練而成，特別適用於需要公平評估的場景。

模型特點

偏差魯棒性

專門針對評估模型中常見的各種偏差進行優化，提供更公平的評分

多數據集融合

結合了UltraFeedback、HelpSteer等多個高質量數據集進行訓練

模型融合技術

通過中間模型與基礎獎勵模型的融合獲得最終模型

模型能力

文本質量評估

對話響應評分

安全性評估

推理能力評估

使用案例

AI對話評估

聊天機器人響應評分

評估聊天機器人回覆的質量和相關性

在RewardBench聊天評估中獲得97.21分

內容安全評估

有害內容檢測

識別和評分潛在有害或不適當的內容

在RewardBench安全性評估中獲得89.01分

🚀 Llama-3-OffsetBias-RM-8B模型卡片

Llama-3-OffsetBias-RM-8B 是一個在OffsetBias數據集上訓練的獎勵模型。它經過訓練，在評估模型中常見的各種評估偏差方面表現得更加穩健。該模型在論文 OffsetBias: Leveraging Debiased Data for Tuning Evaluators 中被提出。

🚀 快速開始

直接使用

from transformers import AutoTokenizer, pipeline
import torch

model_name = "NCSOFT/Llama-3-OffsetBias-RM-8B"
rm_tokenizer = AutoTokenizer.from_pretrained(model_name)
rm_pipe = pipeline(
    "sentiment-analysis",
    model=model_name,
    device="auto",
    tokenizer=rm_tokenizer,
    model_kwargs={"torch_dtype": torch.bfloat16}
)

pipe_kwargs = {
    "return_all_scores": True,
    "function_to_apply": "none",
    "batch_size": 1
}

chat = [
 {"role": "user", "content": "Hello, how are you?"},
 {"role": "assistant", "content": "I'm doing great. How can I help you today?"},
 {"role": "user", "content": "I'd like to show off how chat templating works!"},
]

test_texts = [rm_tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=False).replace(rm_tokenizer.bos_token, "")]
pipe_outputs = rm_pipe(test_texts, **pipe_kwargs)
rewards = [output[0]["score"] for output in pipe_outputs]

✨ 主要特性

使用 sfairXC/FsfairX-LLaMA3-RM-v0.1 作為基礎模型，該模型基於Meta Llama 3構建。
從 Llama-3-8B-Instruct 訓練一箇中間獎勵模型，使用 FsfairX-LLaMA3-RM 模型訓練數據的一個子集，並結合 NCSOFT/offsetbias 數據集。
將中間模型與 FsfairX-LLaMA3-RM 模型合併，創建 Llama-3-OffsetBias-RM-8B。

📚 詳細文檔

模型詳情

模型描述

Llama-3-OffsetBias-RM-8B 使用 sfairXC/FsfairX-LLaMA3-RM-v0.1 作為基礎模型，它基於Meta Llama 3構建。一箇中間獎勵模型是從 Llama-3-8B-Instruct 開始訓練的，使用了 FsfairX-LLaMA3-RM 模型訓練所用數據集的一個子集，並結合了 NCSOFT/offsetbias 數據集。然後將這個中間模型與 FsfairX-LLaMA3-RM 模型合併，創建了 Llama-3-OffsetBias-RM-8B。

屬性	詳情
開發者	NC Research
語言（NLP）	英語
許可證	META LLAMA 3 COMMUNITY LICENSE AGREEMENT
微調基礎模型	sfairXC/FsfairX-LLaMA3-RM-v0.1

模型來源

💻 倉庫：https://github.com/ncsoft/offsetbias
📜 論文：OffsetBias: Leveraging Debiased Data for Tuning Evaluators
🤗 數據集：https://huggingface.co/datasets/NCSOFT/offsetbias

評估

RewardBench結果

指標	得分
Chat	97.21
Chat Hard	80.70
Safety	89.01
Reasoning	90.60

EvalBiasBench結果

指標	得分
Length	82.4
Concreteness	92.9
Empty Reference	46.2
Content Continuation	100.0
Nested Instruction	83.3
Familiar Knowledge	58.3

📄 許可證

該模型使用的許可證為 META LLAMA 3 COMMUNITY LICENSE AGREEMENT。

🔖 引用

@misc{park2024offsetbias,
      title={OffsetBias: Leveraging Debiased Data for Tuning Evaluators},
      author={Junsoo Park and Seungyeon Jwa and Meiying Ren and Daeyoung Kim and Sanghyuk Choi},
      year={2024},
      eprint={2407.06551},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}