R

RM R1 DeepSeek Distilled Qwen 7B

由 gaotang 开发
RM-R1 是一个用于推理奖励模型的训练框架,通过生成结构化的评分标准或推理轨迹来评判两个候选答案,提供可解释的理由。
下载量 444
发布时间 : 5/6/2025

模型简介

RM-R1 是一个先进的奖励建模框架,通过两阶段训练(蒸馏和可验证奖励强化学习)来优化模型性能,适用于RLHF/RLAIF、自动评估和研究任务。

模型特点

两阶段训练
结合蒸馏高质量推理轨迹和可验证奖励强化学习,提升模型性能。
可解释性
通过生成结构化的评分标准或推理轨迹,提供透明的评判理由。
高性能
在公共RM基准测试中表现优异,达到最先进的性能水平。

模型能力

生成评分标准
偏好评分
自动评估
推理轨迹生成

使用案例

强化学习
RLHF/RLAIF
作为可插拔的奖励函数,用于策略优化。
优化模型生成内容的质量和一致性。
自动评估
开放域问答评估
作为大语言模型评判器,评估问答质量。
提供可解释的评分和理由。
研究
过程监督研究
研究思维链验证或评分标准生成。
推动可解释AI的发展。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase