reward - model - deberta - v3 - base開源獎勵模型 - 預測人類偏好答案的實用工具

首頁

Reward Model Deberta V3 Base

由OpenAssistant開發

基於人類反饋訓練的獎勵模型，用於預測人類偏好的答案

大型語言模型

Transformers

英語開源協議:MIT #人類反饋獎勵模型 #問答評估 #RLHF訓練

下載量 1,193

發布時間 : 1/15/2023

模型概述

該獎勵模型經過訓練，能夠根據給定的問題預測人類認為哪個生成的答案更優。適用於問答模型評估和基於人類反饋的強化學習（RLHF）中的獎勵評分。

模型特點

人類反饋訓練

模型基於人類反饋數據進行訓練，能夠準確預測人類偏好的答案

多數據集訓練

在webgpt_comparisons、summarize_from_feedback和synthetic-instruct-gptj-pairwise等多個數據集上進行訓練

跨領域適用

適用於問答和摘要生成等多種文本生成任務的評估

模型能力

答案質量評估

文本生成評分

強化學習獎勵計算

使用案例

問答系統

問答模型評估

評估不同問答模型生成的答案質量

強化學習

RLHF獎勵模型

在基於人類反饋的強化學習中作為獎勵函數

模型	WebGPT	Summary	SytheticGPT
electra-large-discriminator	59.30	68.66	99.85
deberta-v3-large	61.13	72.23	99.94
deberta-v3-base	59.07	66.84	99.85

屬性	詳情
數據集	openai/webgpt_comparisons、openai/summarize_from_feedback、Dahoas/instruct-synthetic-prompt-responses
語言	en
評估指標	accuracy
標籤	reward-model、reward_model、RLHF

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Reward Model Deberta V3 Base

模型概述

模型特點

模型能力

使用案例

🚀 基於人類反饋訓練的獎勵模型

🚀 快速開始

如何使用

📊 性能表現

驗證集分割準確率

📄 許可證

📋 其他信息