H

Hh Rlhf Rm Open Llama 3b

由 weqweasdas 开发
基于LMFlow框架训练的奖励模型,针对HH - RLHF数据集(仅有用部分),以open_llama_3b为基础模型进行训练,具有良好的泛化能力。
下载量 483
发布时间 : 7/14/2023

模型简介

该奖励模型用于评估对话回复的质量,可用于强化学习中的奖励信号生成,支持多种数据集。

模型特点

泛化能力强
在HH - RLHF数据集上训练的奖励模型在开放助手和聊天机器人数据集上表现优异,即使未直接在这些数据集上训练。
高效数据使用
通过文本拼接和分割成1024大小的块,而非按最长文本填充,提高了数据使用效率。
高准确率
在HH - RLHF测试集上达到75.48%的准确率,评估损失为0.5。

模型能力

对话回复质量评估
强化学习奖励信号生成
多数据集泛化

使用案例

强化学习
RAFT训练
使用该奖励模型在RAFT框架中生成高质量回复,用于微调GPT - Neo - 2.7B和LLaMA - 7B模型。
奖励曲线显示模型能够有效提升生成回复的质量。
对话系统
对话回复评估
评估对话系统中生成的回复质量,选择最优回复。
在开放助手和聊天机器人数据集上表现优异。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase