D

Decision Tree Reward Gemma 2 27B

由RLHFlow開發
基於Gemma-2-27B微調的決策樹獎勵模型,用於評估語言模型生成內容的質量,在RewardBench排行榜上表現優異。
下載量 18
發布時間 : 1/22/2025

模型概述

該模型通過決策樹方法解讀語言模型偏好,能夠評估回覆的幫助性、正確性、連貫性等維度,適用於強化學習人類反饋(RLHF)場景。

模型特點

決策樹架構
採用決策樹方法分析語言模型輸出,相比傳統序列分類器能更細緻地評估多個質量維度
多維度評估
可同時評估幫助性、正確性、連貫性、複雜性和詳細度五個關鍵維度
高性能
在RewardBench排行榜上綜合得分95.4,尤其在困難對話(91.4)和推理能力(99.2)方面表現突出

模型能力

文本質量評估
多維度評分
回覆對比
強化學習反饋

使用案例

語言模型訓練
RLHF訓練
作為獎勵模型用於強化學習人類反饋訓練流程
提供更準確的偏好信號,提升語言模型生成質量
內容評估
自動評分
評估語言模型生成內容的質量
提供多維度評分,幫助篩選最佳回覆
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase