R

RM R1 DeepSeek Distilled Qwen 14B

gaotangによって開発
RM-R1は推論報酬モデル(ReasRM)のためのトレーニングフレームワークで、評価基準や推論軌跡を生成して候補回答を評価し、解釈可能な評価を提供します。
ダウンロード数 95
リリース時間 : 5/6/2025

モデル概要

このモデルは2段階のトレーニング手法を採用しており、まず高品質な推論軌跡を蒸留し、次に検証可能な報酬を用いた強化学習で最適化します。RLHF/RLAIF、自動評価、研究用途に適しています。

モデル特徴

推論報酬モデリング
評価基準や推論軌跡を生成して回答を評価し、完全に解釈可能な評価プロセスを提供
2段階トレーニング
まず高品質な推論軌跡を蒸留し、次に検証可能な報酬を用いた強化学習で最適化
高性能
公開報酬モデルベンチマークで+13.8%の絶対精度向上を達成

モデル能力

テキストランキング
評価基準生成
推論軌跡生成
選好表現

使用事例

強化学習
RLHF/RLAIF
ポリシー最適化のためのプラグアンドプレイ報酬関数として使用
自動評価
LLM評価者
オープンドメインQA、チャット、推論の自動評価に使用
研究
プロセス監視研究
思考連鎖検証や評価基準生成の研究に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase