P

Pairrm

由llm-blender開發
PairRM是一個高效的成對獎勵模型,用於比較和排序大語言模型的輸出候選,支持多種應用場景如RLHF和最佳N採樣。
下載量 6,004
發布時間 : 11/6/2023

模型概述

PairRM接收指令和一對輸出候選,為每個候選評分以衡量相對質量。它可用於排序候選輸出、增強解碼以及通過RLHF方法對齊指令調優的LLM。

模型特點

成對比較
將一對候選並排比較,識別細微差異,提高評估精度。
高效模型
基於0.4B參數的deberta-v3-large,推理速度快,資源消耗低。
多數據集訓練
在六個人類偏好數據集上訓練,涵蓋多樣化場景。
多功能應用
支持排序、最佳N採樣、RLHF等多種應用場景。

模型能力

文本生成評估
輸出候選排序
RLHF支持
解碼增強

使用案例

LLM評估
候選輸出排序
對多個LLM生成的候選輸出進行排序,選擇最優結果。
提高輸出質量,接近人類偏好。
LLM訓練
RLHF對齊
通過PairRM的評分指導LLM的強化學習過程。
提升LLM與人類偏好的對齊程度。
最佳N採樣
生成多個候選後使用PairRM選擇最優結果。
穩定提升生成質量,避免低質量輸出。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase