R

RM R1 Qwen2.5 Instruct 14B

由gaotang開發
RM-R1是一個用於推理獎勵模型(ReasRM)的訓練框架,通過生成評分標準或推理軌跡來判斷候選答案,提供可解釋的評價。
下載量 21
發布時間 : 5/6/2025

模型概述

RM-R1是一個創新的獎勵模型框架,通過兩階段訓練(蒸餾高質量推理軌跡和使用可驗證獎勵的強化學習)來提升獎勵模型的準確性和可解釋性。

模型特點

推理獎勵模型
通過生成評分標準或推理軌跡來判斷候選答案,提供完全可解釋的評價。
兩階段訓練
1. 蒸餾約8.7K條高質量推理軌跡;2. 在約64K個偏好對上使用可驗證獎勵的強化學習(RLVR)。
高性能
在公開獎勵模型基準測試中實現高達+13.8%的絕對準確率提升。

模型能力

文本排序
推理軌跡生成
評分標準生成
偏好判斷

使用案例

強化學習
RLHF/RLAIF
作為即插即用的獎勵函數用於策略優化
自動評估
LLM評判員
用於開放域問答、聊天和推理的自動評估
研究
過程監督研究
研究思維鏈驗證或評分標準生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase