P

POLAR 7B

由 internlm 开发
POLAR-7B是基于大规模预训练的标量奖励模型,采用创新的策略判别式学习范式,能够有效区分策略并与人类偏好对齐。
下载量 316
发布时间 : 7/4/2025

模型简介

POLAR-7B是一个基于标量的奖励模型,专为强化学习设计。它通过大规模预训练和少量偏好数据微调,能够快速与人类偏好对齐,适用于文本排序任务。

模型特点

创新的预训练范式
POLAR训练奖励模型来识别相同策略并区分不同策略,捕捉策略间的相对差异。
专为强化微调设计
POLAR根据给定的参考为大语言模型轨迹分配奖励,与强化微调(RFT)框架完美契合。
卓越的性能和泛化能力
POLAR在下游强化学习任务中取得了最先进的成果,能够有效泛化到未见场景,并显著减少奖励破解问题。
易于定制
提供了预训练检查点,使研究人员能够方便地针对各种定制场景微调奖励模型。

模型能力

策略判别
文本排序
奖励信号生成
强化学习支持

使用案例

封闭式问题回答
计数问题
评估回答计数问题的准确性
能够准确区分正确和错误的计数回答
开放式问题回答
书籍摘要
评估对书籍内容的摘要质量
能够识别高质量、简洁且符合要求的摘要
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase