P

Pairrm

llm-blenderによって開発
PairRMは、大規模言語モデルの出力候補を比較・ランク付けするための効率的なペア報酬モデルで、RLHFやベストNサンプリングなど多様なアプリケーションシナリオをサポートします。
ダウンロード数 6,004
リリース時間 : 11/6/2023

モデル概要

PairRMは、命令と一組の出力候補を受け取り、各候補を相対的な品質で評価します。出力候補のランキング、デコードの強化、RLHF手法による命令調整LLMのアライメントなどに使用できます。

モデル特徴

ペア比較
一組の候補を並べて比較し、微妙な差異を識別することで評価精度を向上させます。
効率的なモデル
0.4Bパラメータのdeberta-v3-largeベースで、推論速度が速く、リソース消費が低いです。
マルチデータセットトレーニング
6つの人間の嗜好データセットでトレーニングされ、多様なシナリオをカバーしています。
多機能アプリケーション
ランキング、ベストNサンプリング、RLHFなど多様なアプリケーションシナリオをサポートします。

モデル能力

テキスト生成評価
出力候補ランキング
RLHFサポート
デコード強化

使用事例

LLM評価
出力候補ランキング
複数のLLMで生成された出力候補をランク付けし、最適な結果を選択します。
出力品質を向上させ、人間の嗜好に近づけます。
LLMトレーニング
RLHFアライメント
PairRMのスコアリングでLLMの強化学習プロセスをガイドします。
LLMと人間の嗜好のアライメントを向上させます。
ベストNサンプリング
複数の候補を生成後、PairRMで最適な結果を選択します。
生成品質を安定させ、低品質な出力を回避します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase