R

Reward Model Deberta V3 Base

由OpenAssistant開發
基於人類反饋訓練的獎勵模型,用於預測人類偏好的答案
下載量 1,193
發布時間 : 1/15/2023

模型概述

該獎勵模型經過訓練,能夠根據給定的問題預測人類認為哪個生成的答案更優。適用於問答模型評估和基於人類反饋的強化學習(RLHF)中的獎勵評分。

模型特點

人類反饋訓練
模型基於人類反饋數據進行訓練,能夠準確預測人類偏好的答案
多數據集訓練
在webgpt_comparisons、summarize_from_feedback和synthetic-instruct-gptj-pairwise等多個數據集上進行訓練
跨領域適用
適用於問答和摘要生成等多種文本生成任務的評估

模型能力

答案質量評估
文本生成評分
強化學習獎勵計算

使用案例

問答系統
問答模型評估
評估不同問答模型生成的答案質量
強化學習
RLHF獎勵模型
在基於人類反饋的強化學習中作為獎勵函數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase