P

POLAR 7B

internlmによって開発
POLAR-7Bは大規模事前学習に基づくスカラー報酬モデルで、革新的な戦略判別式学習パラダイムを採用し、戦略を効果的に区別し、人間の嗜好と一致させることができます。
ダウンロード数 316
リリース時間 : 7/4/2025

モデル概要

POLAR-7Bはスカラーベースの報酬モデルで、強化学習用に設計されています。大規模事前学習と少量の嗜好データの微調整により、迅速に人間の嗜好と一致させることができ、テキストソートタスクに適しています。

モデル特徴

革新的な事前学習パラダイム
POLARは報酬モデルを訓練して、同じ戦略を識別し、異なる戦略を区別し、戦略間の相対的な差異を捉えます。
強化微調整用に設計
POLARは与えられた参照に基づいて大規模言語モデルの軌跡に報酬を割り当て、強化微調整(RFT)フレームワークと完璧に適合します。
卓越した性能と汎化能力
POLARは下流の強化学習タスクで最先端の成果を達成し、未見のシナリオに効果的に汎化でき、報酬破解問題を大幅に減らすことができます。
カスタマイズが容易
事前学習チェックポイントを提供し、研究者が様々なカスタムシナリオに対して報酬モデルを簡単に微調整できるようにします。

モデル能力

戦略判別
テキストソート
報酬信号生成
強化学習サポート

使用事例

閉鎖的質問回答
カウント問題
カウント問題の回答の正確性を評価します。
正しいカウント回答と誤ったカウント回答を正確に区別できます。
開放的質問回答
書籍要約
書籍内容の要約品質を評価します。
高品質で簡潔で要件を満たす要約を識別できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase