R

RM R1 Qwen2.5 Instruct 7B

由gaotang開發
RM-R1是一個用於推理獎勵模型(ReasRM)的訓練框架,通過生成評分標準或推理軌跡來評估候選答案,相比傳統獎勵模型在準確率和可解釋性上有顯著提升。
下載量 23
發布時間 : 5/6/2025

模型概述

RM-R1是一個創新的獎勵模型訓練框架,採用兩階段訓練方法:首先蒸餾高質量推理軌跡,然後實施可驗證獎勵的強化學習。該模型能夠生成可解釋的評分標準,顯著提升偏好判斷的準確性。

模型特點

推理獎勵模型
通過生成評分標準或推理軌跡來評估候選答案,相比傳統標量獎勵模型具有更高的準確性和可解釋性
兩階段訓練
第一階段蒸餾高質量推理軌跡(約8.7K條),第二階段在約64K偏好對上實施可驗證獎勵的強化學習(RLVR)
性能提升
在公開獎勵模型基準上實現了高達13.8%的絕對準確率提升

模型能力

偏好判斷
評分標準生成
推理軌跡生成
文本質量評估

使用案例

強化學習
RLHF/RLAIF
作為即插即用的策略優化獎勵函數
提供更準確和可解釋的獎勵信號
自動化評估
LLM裁判
評估開放域QA、對話和推理任務的回答質量
提供可解釋的評分依據
研究
過程監督研究
探索思維鏈驗證或評分標準生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase