RM - R1 - DeepSeek - Distilled - Qwen - 14Bオープンソース報酬モデル - 候補回答を評価し、解釈可能な評価を提供する

ホーム

RM R1 DeepSeek Distilled Qwen 14B

gaotangによって開発

RM-R1は推論報酬モデル(ReasRM)のためのトレーニングフレームワークで、評価基準や推論軌跡を生成して候補回答を評価し、解釈可能な評価を提供します。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #推論報酬モデル #解釈可能なスコアリング #強化学習最適化

ダウンロード数 95

リリース時間 : 5/6/2025

モデル概要

このモデルは2段階のトレーニング手法を採用しており、まず高品質な推論軌跡を蒸留し、次に検証可能な報酬を用いた強化学習で最適化します。RLHF/RLAIF、自動評価、研究用途に適しています。

モデル特徴

推論報酬モデリング

評価基準や推論軌跡を生成して回答を評価し、完全に解釈可能な評価プロセスを提供

2段階トレーニング

まず高品質な推論軌跡を蒸留し、次に検証可能な報酬を用いた強化学習で最適化

高性能

公開報酬モデルベンチマークで+13.8%の絶対精度向上を達成

モデル能力

テキストランキング

評価基準生成

推論軌跡生成

選好表現

使用事例

強化学習

RLHF/RLAIF

ポリシー最適化のためのプラグアンドプレイ報酬関数として使用

自動評価

LLM評価者

オープンドメインQA、チャット、推論の自動評価に使用

研究

プロセス監視研究

思考連鎖検証や評価基準生成の研究に使用

🚀 RM - R1

RM - R1は、2つの候補回答を判断するための推論報酬モデル（ReasRM）のトレーニングフレームワークです。このモデルはまず「大声で考える」（ルーブリックや推論トレースを生成）し、その後に好みを示します。従来のスカラーまたはバニラな生成型報酬モデルと比較して、RM - R1は公開されている報酬モデルベンチマークで最大**+13.8 %の絶対的な精度向上**を達成し、完全に解釈可能な批判を提供します。

image/png

[🤖 モデルとデータセット] [📊 コード] [📄 論文]

🚀 クイックスタート

RM - R1は、2段階のトレーニングプロセスを通じて開発された推論報酬モデルです。まず、約8.7Kの高品質な推論トレース（Chain - of - Rubrics）を蒸留し、その後、約64Kの好みのペアに対して「検証可能な報酬による強化学習」（RLVR）を行います。

✨ 主な機能

2段階トレーニング

蒸留：約8.7Kの高品質な推論トレース（Chain - of - Rubrics）を蒸留します。
検証可能な報酬による強化学習（RLVR）：約64Kの好みのペアに対してRLVRを行います。

公開されたバックボーン

7B / 14B / 32BのQwen - 2.5 - Instructバリアント + DeepSeek蒸留チェックポイントが公開されています。

想定される用途

RLHF / RLAIF：ポリシー最適化のための即座に使用できる報酬関数です。
自動評価：オープンドメインのQA、チャット、および推論におけるLLM - as - a - judgeとして使用できます。
研究：プロセス監督、思考連鎖検証、またはルーブリック生成の研究に役立ちます。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

プロパティ	詳細
ベースモデル	deepseek - ai/DeepSeek - R1 - Distill - Qwen - 14B
言語	en
ライセンス	mit
パイプラインタグ	text - ranking
ライブラリ名	transformers