D

Distilroberta Base Rejection V1

Developed by protectai
基于distilroberta-base微调的文本分类模型,用于识别大语言模型生成的拒绝回复
Downloads 74.91k
Release Time : 1/20/2024

Model Overview

该模型专门用于检测大语言模型因内容审核未通过而生成的拒绝回复,将输入分类为正常输出(0)或拒绝回复(1)

Model Features

高准确率检测
在评估集上达到98.87%的准确率和95.37%的F1值
轻量级模型
基于DistilRoBERTa的蒸馏版本,保持高性能的同时减少计算资源需求
多数据集训练
结合多个开源数据集和RLHF数据,覆盖广泛的拒绝回复模式

Model Capabilities

文本分类
拒绝回复识别
内容审核辅助

Use Cases

内容安全
LLM输出监控
监控大语言模型的输出,识别潜在的拒绝回复
可帮助开发者发现可能触发内容审核的提示词
提示工程
提示优化反馈
通过检测拒绝回复帮助优化提示词设计
提高LLM响应成功率
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase