P

POLAR 7B

由internlm開發
POLAR-7B是基於大規模預訓練的標量獎勵模型,採用創新的策略判別式學習範式,能夠有效區分策略並與人類偏好對齊。
下載量 316
發布時間 : 7/4/2025

模型概述

POLAR-7B是一個基於標量的獎勵模型,專為強化學習設計。它通過大規模預訓練和少量偏好數據微調,能夠快速與人類偏好對齊,適用於文本排序任務。

模型特點

創新的預訓練範式
POLAR訓練獎勵模型來識別相同策略並區分不同策略,捕捉策略間的相對差異。
專為強化微調設計
POLAR根據給定的參考為大語言模型軌跡分配獎勵,與強化微調(RFT)框架完美契合。
卓越的性能和泛化能力
POLAR在下游強化學習任務中取得了最先進的成果,能夠有效泛化到未見場景,並顯著減少獎勵破解問題。
易於定製
提供了預訓練檢查點,使研究人員能夠方便地針對各種定製場景微調獎勵模型。

模型能力

策略判別
文本排序
獎勵信號生成
強化學習支持

使用案例

封閉式問題回答
計數問題
評估回答計數問題的準確性
能夠準確區分正確和錯誤的計數回答
開放式問題回答
書籍摘要
評估對書籍內容的摘要質量
能夠識別高質量、簡潔且符合要求的摘要
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase