D

Distilroberta Base Rejection V1

由protectai開發
基於distilroberta-base微調的文本分類模型,用於識別大語言模型生成的拒絕回覆
下載量 74.91k
發布時間 : 1/20/2024

模型概述

該模型專門用於檢測大語言模型因內容審核未通過而生成的拒絕回覆,將輸入分類為正常輸出(0)或拒絕回覆(1)

模型特點

高準確率檢測
在評估集上達到98.87%的準確率和95.37%的F1值
輕量級模型
基於DistilRoBERTa的蒸餾版本,保持高性能的同時減少計算資源需求
多數據集訓練
結合多個開源數據集和RLHF數據,覆蓋廣泛的拒絕回覆模式

模型能力

文本分類
拒絕回覆識別
內容審核輔助

使用案例

內容安全
LLM輸出監控
監控大語言模型的輸出,識別潛在的拒絕回覆
可幫助開發者發現可能觸發內容審核的提示詞
提示工程
提示優化反饋
通過檢測拒絕回覆幫助優化提示詞設計
提高LLM響應成功率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase