R

Reward Model Deberta V3 Large V2

由OpenAssistant開發
該獎勵模型經過訓練,能夠預測在給定問題下,人類會認為哪個生成的答案更好。適用於問答評估、RLHF獎勵評分和毒性回答檢測。
下載量 11.15k
發布時間 : 2/1/2023

模型概述

基於多個人類反饋數據集訓練的序列分類模型,用於評估生成答案的質量和安全性。

模型特點

多數據集訓練
整合了WebGPT比較、摘要反饋、合成指令和人類偏好數據集
毒性檢測
可識別潛在有害或不適當的回答
跨領域適用
在問答、摘要和對話場景中均表現良好

模型能力

答案質量評分
回答對比較
有害內容檢測
RLHF獎勵信號生成

使用案例

問答系統
答案質量評估
評估AI生成答案的人類偏好程度
在WebGPT數據集上達到61.57%準確率
內容安全
毒性回答識別
檢測具有攻擊性或不當內容的回答
可有效區分建設性和有害回答
強化學習
RLHF獎勵模型
為強化學習從人類反饋中提供訓練信號
在Anthropic RLHF數據集上達到69.25%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase