G

Gpt2 Large Harmless Reward Model

由Ray2333開發
基於Anthropic/hh - rlhf無害數據集訓練的GPT2大模型,專門用於有害響應檢測或基於人類反饋的強化學習(RLHF)。
下載量 1,489
發布時間 : 1/14/2024

模型概述

該模型在測試集上達到了0.73698的準確率,幾乎可與其他更大規模的模型相媲美。主要用於有害響應檢測和RLHF任務。

模型特點

高準確率
在測試集上達到了0.73698的準確率,性能接近更大規模的模型。
專門化訓練
基於Anthropic/hh - rlhf無害數據集專門訓練,專注於有害響應檢測。
RLHF支持
支持基於人類反饋的強化學習(RLHF),可用於模型對齊。

模型能力

有害響應檢測
文本分類
強化學習反饋

使用案例

內容安全
有害內容過濾
檢測對話中的有害或不當響應。
準確識別有害內容,準確率0.73698。
AI對齊
多目標對齊
用於ICML 2024的Rewards-in-Context項目中的多目標對齊(特別是'無害'和'有用'對齊)。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase