R

RM R1 Qwen2.5 Instruct 32B

由gaotang開發
RM-R1是一個通過推理軌跡生成進行獎勵建模的框架,相比傳統方法在準確率和可解釋性上有顯著提升
下載量 29
發布時間 : 5/6/2025

模型概述

該模型通過兩階段訓練(推理軌跡蒸餾和強化學習)實現可解釋的獎勵評分,適用於RLHF/RLAIF和自動化評估場景

模型特點

可解釋性評分
通過生成評分標準或推理軌跡後再表達偏好,提供完全透明的評價過程
兩階段訓練框架
先蒸餾8.7K條高質量推理軌跡,再通過RLVR處理64K條偏好對
性能突破
在公共基準上實現+13.8%絕對準確率提升
多尺寸選擇
提供7B/14B/32B參數版本及DeepSeek蒸餾檢查點

模型能力

生成評分標準
偏好判斷
推理軌跡生成
開放域問答評估
對話質量評分

使用案例

強化學習
RLHF/RLAIF
作為即插即用的獎勵函數用於策略優化
自動化評估
LLM評判員
對開放域問答、聊天和推理任務進行自動評分
研究工具
過程監督研究
用於研究思維鏈驗證或評分標準生成機制
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase