R

RM R1 Qwen2.5 Instruct 32B

Developed by gaotang
RM-R1は推論軌跡生成を通じて報酬モデリングを行うフレームワークで、従来の方法と比べて精度と説明可能性が大幅に向上
Downloads 29
Release Time : 5/6/2025

Model Overview

このモデルは2段階のトレーニング(推論軌跡蒸留と強化学習)により説明可能な報酬スコアリングを実現し、RLHF/RLAIFや自動評価シナリオに適応

Model Features

説明可能なスコアリング
評価基準や推論軌跡を生成した後に選好を表現することで、完全に透明な評価プロセスを提供
2段階トレーニングフレームワーク
最初に8.7Kの高品質な推論軌跡を蒸留し、次にRLVRで64Kの選好ペアを処理
性能ブレークスルー
公共ベンチマークで+13.8%の絶対精度向上を達成
マルチサイズオプション
7B/14B/32BパラメータバージョンとDeepSeek蒸留チェックポイントを提供

Model Capabilities

評価基準生成
選好判断
推論軌跡生成
開放領域QA評価
対話品質評価

Use Cases

強化学習
RLHF/RLAIF
プラグアンドプレイの報酬関数としてポリシー最適化に使用
自動評価
LLM評価者
開放領域QA、チャット、推論タスクの自動採点
研究ツール
プロセス監視研究
思考連鎖検証や評価基準生成メカニズムの研究に使用
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase