P

PURE PRM 7B

jinachrisによって開発
これはQwen2.5-Math-7Bでトレーニングされたプロセス報酬モデルで、数学的推論能力を向上させるために使用されます
ダウンロード数 18
リリース時間 : 2/9/2025

モデル概要

このモデルはPRM800KデータセットでQwen2.5-Math-7Bをファインチューニングして取得され、主に数学的推論プロセスと中間ステップの品質を評価するために使用されます

モデル特徴

プロセス評価能力
最終結果ではなく、推論プロセスと中間ステップの品質評価に焦点を当てています
数学的推論最適化
数学的推論タスクに特化して最適化され、推論ステップの正確性を向上させます
ステップ分離評価
ダブル改行で解決策のステップを分離し、各ステップを独立して評価することをサポートします

モデル能力

数学的推論評価
プロセス報酬計算
ステップ品質分析

使用事例

数学教育
数学問題解決ステップ評価
学生の解答プロセスにおける各ステップの正確性を評価します
各ステップの報酬スコアを提供し、誤ったステップを特定するのに役立ちます
AIトレーニング
強化学習報酬モデル
強化学習における報酬モデルとして、AIの数学的推論能力の改善を指導します
AIモデルの数学的推論の正確性を向上させます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase