R

RM R1 DeepSeek Distilled Qwen 32B

由gaotang開發
RM-R1 是一個用於推理獎勵模型(ReasRM)的訓練框架,通過生成評分標準或推理軌跡來評估候選答案,提供可解釋的評價。
下載量 506
發布時間 : 5/6/2025

模型概述

RM-R1 是一個兩階段訓練的推理獎勵模型,通過蒸餾高質量推理軌跡和使用可驗證獎勵的強化學習,顯著提升偏好判斷的準確率。

模型特點

兩階段訓練
第一階段蒸餾高質量推理軌跡,第二階段使用可驗證獎勵的強化學習進行優化。
可解釋性
通過生成評分標準或推理軌跡,提供完全可解釋的評價。
高性能
在公開獎勵模型基準上實現高達+13.8%的絕對準確率提升。

模型能力

文本排序
生成評分標準
推理軌跡生成
偏好判斷

使用案例

RLHF / RLAIF
策略優化
作為即插即用的獎勵函數,用於策略優化。
自動評估
LLM 評判員
用於開放領域問答、聊天和推理的自動評估。
研究
過程監督
研究過程監督、思維鏈驗證或評分標準生成。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase