G

Gpt2 Large Harmless Reward Model

由 Ray2333 开发
基于Anthropic/hh - rlhf无害数据集训练的GPT2大模型,专门用于有害响应检测或基于人类反馈的强化学习(RLHF)。
下载量 1,489
发布时间 : 1/14/2024

模型简介

该模型在测试集上达到了0.73698的准确率,几乎可与其他更大规模的模型相媲美。主要用于有害响应检测和RLHF任务。

模型特点

高准确率
在测试集上达到了0.73698的准确率,性能接近更大规模的模型。
专门化训练
基于Anthropic/hh - rlhf无害数据集专门训练,专注于有害响应检测。
RLHF支持
支持基于人类反馈的强化学习(RLHF),可用于模型对齐。

模型能力

有害响应检测
文本分类
强化学习反馈

使用案例

内容安全
有害内容过滤
检测对话中的有害或不当响应。
准确识别有害内容,准确率0.73698。
AI对齐
多目标对齐
用于ICML 2024的Rewards-in-Context项目中的多目标对齐(特别是'无害'和'有用'对齐)。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase