D

Distilroberta Base Rejection V1

由 protectai 开发
基于distilroberta-base微调的文本分类模型,用于识别大语言模型生成的拒绝回复
下载量 74.91k
发布时间 : 1/20/2024

模型简介

该模型专门用于检测大语言模型因内容审核未通过而生成的拒绝回复,将输入分类为正常输出(0)或拒绝回复(1)

模型特点

高准确率检测
在评估集上达到98.87%的准确率和95.37%的F1值
轻量级模型
基于DistilRoBERTa的蒸馏版本,保持高性能的同时减少计算资源需求
多数据集训练
结合多个开源数据集和RLHF数据,覆盖广泛的拒绝回复模式

模型能力

文本分类
拒绝回复识别
内容审核辅助

使用案例

内容安全
LLM输出监控
监控大语言模型的输出,识别潜在的拒绝回复
可帮助开发者发现可能触发内容审核的提示词
提示工程
提示优化反馈
通过检测拒绝回复帮助优化提示词设计
提高LLM响应成功率
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase