R

RM R1 Qwen2.5 Instruct 32B

gaotangによって開発
RM-R1は推論軌跡生成を通じて報酬モデリングを行うフレームワークで、従来の方法と比べて精度と説明可能性が大幅に向上
ダウンロード数 29
リリース時間 : 5/6/2025

モデル概要

このモデルは2段階のトレーニング(推論軌跡蒸留と強化学習)により説明可能な報酬スコアリングを実現し、RLHF/RLAIFや自動評価シナリオに適応

モデル特徴

説明可能なスコアリング
評価基準や推論軌跡を生成した後に選好を表現することで、完全に透明な評価プロセスを提供
2段階トレーニングフレームワーク
最初に8.7Kの高品質な推論軌跡を蒸留し、次にRLVRで64Kの選好ペアを処理
性能ブレークスルー
公共ベンチマークで+13.8%の絶対精度向上を達成
マルチサイズオプション
7B/14B/32BパラメータバージョンとDeepSeek蒸留チェックポイントを提供

モデル能力

評価基準生成
選好判断
推論軌跡生成
開放領域QA評価
対話品質評価

使用事例

強化学習
RLHF/RLAIF
プラグアンドプレイの報酬関数としてポリシー最適化に使用
自動評価
LLM評価者
開放領域QA、チャット、推論タスクの自動採点
研究ツール
プロセス監視研究
思考連鎖検証や評価基準生成メカニズムの研究に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase