R

Reward Model Deberta V3 Large

由OpenAssistant開發
該獎勵模型經過訓練,能夠預測在給定問題下人類評判者會認為哪個生成的答案更好。
下載量 796
發布時間 : 1/15/2023

模型概述

基於人類反饋訓練的獎勵模型,用於評估問答模型質量或作為RLHF中的獎勵分數。支持預測人類偏好的答案排序。

模型特點

多數據集訓練
在WebGPT、摘要反饋和合成指令三個數據集上聯合訓練
高性能架構
採用DeBERTa-v3-large架構,在各項基準測試中表現優異
RLHF兼容
可直接作為強化學習人類反饋流程中的獎勵函數

模型能力

答案質量評估
答案對排序
人類偏好預測

使用案例

問答系統
答案質量評分
對AI生成的多個答案進行質量評分
準確預測人類評判者的偏好
強化學習
RLHF獎勵信號
為強化學習提供人類反饋的替代獎勵信號
加速模型對齊過程
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase