P

Pairrm

由 llm-blender 开发
PairRM是一个高效的成对奖励模型,用于比较和排序大语言模型的输出候选,支持多种应用场景如RLHF和最佳N采样。
下载量 6,004
发布时间 : 11/6/2023

模型简介

PairRM接收指令和一对输出候选,为每个候选评分以衡量相对质量。它可用于排序候选输出、增强解码以及通过RLHF方法对齐指令调优的LLM。

模型特点

成对比较
将一对候选并排比较,识别细微差异,提高评估精度。
高效模型
基于0.4B参数的deberta-v3-large,推理速度快,资源消耗低。
多数据集训练
在六个人类偏好数据集上训练,涵盖多样化场景。
多功能应用
支持排序、最佳N采样、RLHF等多种应用场景。

模型能力

文本生成评估
输出候选排序
RLHF支持
解码增强

使用案例

LLM评估
候选输出排序
对多个LLM生成的候选输出进行排序,选择最优结果。
提高输出质量,接近人类偏好。
LLM训练
RLHF对齐
通过PairRM的评分指导LLM的强化学习过程。
提升LLM与人类偏好的对齐程度。
最佳N采样
生成多个候选后使用PairRM选择最优结果。
稳定提升生成质量,避免低质量输出。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase