RM-R1-Qwen2.5-Instruct-32Bオープンソース報酬モデリングフレームワーク - 推論軌跡生成による精度と説明性の両方の向上

Home

RM R1 Qwen2.5 Instruct 32B

Developed by gaotang

RM-R1は推論軌跡生成を通じて報酬モデリングを行うフレームワークで、従来の方法と比べて精度と説明可能性が大幅に向上

大規模言語モデル

Transformers

EnglishOpen Source License:MIT #推論報酬モデリング #説明可能な評価 #RLHF最適化

Downloads 29

Release Time : 5/6/2025

Model Overview

このモデルは2段階のトレーニング（推論軌跡蒸留と強化学習）により説明可能な報酬スコアリングを実現し、RLHF/RLAIFや自動評価シナリオに適応

Model Features

説明可能なスコアリング

評価基準や推論軌跡を生成した後に選好を表現することで、完全に透明な評価プロセスを提供

2段階トレーニングフレームワーク

最初に8.7Kの高品質な推論軌跡を蒸留し、次にRLVRで64Kの選好ペアを処理

性能ブレークスルー

公共ベンチマークで+13.8%の絶対精度向上を達成

マルチサイズオプション

7B/14B/32BパラメータバージョンとDeepSeek蒸留チェックポイントを提供

Model Capabilities

評価基準生成

選好判断

推論軌跡生成

開放領域QA評価

対話品質評価

Use Cases

強化学習

RLHF/RLAIF

プラグアンドプレイの報酬関数としてポリシー最適化に使用

自動評価

LLM評価者

開放領域QA、チャット、推論タスクの自動採点

研究ツール

プロセス監視研究

思考連鎖検証や評価基準生成メカニズムの研究に使用

🚀 RM - R1：推論型報酬モデルのトレーニングフレームワーク

RM - R1は、推論型報酬モデル（ReasRM）のトレーニングフレームワークです。このモデルは、2つの候補回答を判断する際に、まず「思考過程を明示的に生成」し、評価基準や推論の痕跡を生成してから、好みを示します。既存のスカラー型や単純な生成型報酬モデルと比較して、RM - R1は公開されている報酬モデルのベンチマークで最大**+13.8 %の絶対的な精度向上**を達成し、かつ完全に解釈可能な批判を提供します。

image/png

[[**🤖 モデルとデータセット**](https://huggingface.co/collections/gaotang/rm-r1-681128cdab932701cad844c8)] [[**📊 コード**](https://github.com/RM-R1-UIUC/RM-R1)] [[**📖 論文**](https://arxiv.org/abs/2505.02387)]

🚀 クイックスタート

RM - R1は、推論型報酬モデルのトレーニングに特化したフレームワークです。以下に、このモデルの概要と主な機能を説明します。

✨ 主な機能

二段階トレーニング
1. 約8,700の高品質な推論痕跡（評価基準の連鎖）の蒸留。
2. 約64,000の好みのペアに対する検証可能な報酬を用いた強化学習（RLVR）。
公開されたバックボーン：7B / 14B / 32BのQwen - 2.5 - Instructバリアント + DeepSeek蒸留チェックポイント。