P

Pairrm

Developed by llm-blender
PairRM是一個高效的成對獎勵模型,用於比較和排序大語言模型的輸出候選,支持多種應用場景如RLHF和最佳N採樣。
Downloads 6,004
Release Time : 11/6/2023

Model Overview

PairRM接收指令和一對輸出候選,為每個候選評分以衡量相對質量。它可用於排序候選輸出、增強解碼以及通過RLHF方法對齊指令調優的LLM。

Model Features

成對比較
將一對候選並排比較,識別細微差異,提高評估精度。
高效模型
基於0.4B參數的deberta-v3-large,推理速度快,資源消耗低。
多數據集訓練
在六個人類偏好數據集上訓練,涵蓋多樣化場景。
多功能應用
支持排序、最佳N採樣、RLHF等多種應用場景。

Model Capabilities

文本生成評估
輸出候選排序
RLHF支持
解碼增強

Use Cases

LLM評估
候選輸出排序
對多個LLM生成的候選輸出進行排序,選擇最優結果。
提高輸出質量,接近人類偏好。
LLM訓練
RLHF對齊
通過PairRM的評分指導LLM的強化學習過程。
提升LLM與人類偏好的對齊程度。
最佳N採樣
生成多個候選後使用PairRM選擇最優結果。
穩定提升生成質量,避免低質量輸出。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase