G

Gpt2 Large Helpful Reward Model

由Ray2333開發
基於Anthropic/hh-rlhf幫助性數據集訓練的GPT2大模型,專用於幫助性響應檢測或RLHF(基於人類反饋的強化學習)。
下載量 2,935
發布時間 : 1/15/2024

模型概述

該模型用於評估AI助手的響應是否具有幫助性,適用於基於人類反饋的強化學習(RLHF)場景。

模型特點

高準確率
在測試集上達到了0.72621的準確率,與更大規模的其他模型表現接近。
RLHF專用
專門為基於人類反饋的強化學習(RLHF)場景設計,特別關注響應幫助性評估。
多目標對齊
支持'無害性'和'幫助性'等多目標對齊,被用於ICML 2024的'Rewards-in-context'項目。

模型能力

幫助性響應評分
強化學習反饋生成
對話質量評估

使用案例

AI助手開發
對話系統質量評估
評估AI助手生成的響應是否對用戶有幫助
提供0-1之間的幫助性評分
強化學習
RLHF訓練
作為獎勵模型用於基於人類反饋的強化學習
幫助優化AI助手的響應質量
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase