jailbreak-classifier開源文本分類模型 - 免費部署檢測提示越獄嘗試

Jailbreak Classifier

由jackhhao開發

基於bert-base-uncased微調的文本分類模型，用於檢測用戶提示中的越獄嘗試

下載量 7,619

發布時間 : 9/30/2023

模型概述

該模型專門用於內容審核場景，能夠將用戶提示分類為越獄嘗試或良性請求，幫助維護AI系統的安全性。

越獄檢測

能夠準確識別用戶提示中的越獄嘗試，保護AI系統免受惡意攻擊

基於BERT

基於bert-base-uncased微調，繼承了BERT強大的文本理解能力

內容審核

專為AI系統內容審核場景優化，幫助維護系統安全

文本分類

越獄檢測

內容審核

提示注入識別

AI安全

聊天機器人防護

檢測用戶對聊天機器人的越獄嘗試

有效阻止惡意提示注入

內容審核系統

作為AI系統的第一道防線過濾惡意請求

提高系統安全性

屬性	詳情
模型類型	基於微調後的 bert-base-uncased 的文本分類模型
訓練數據	Open-Orca/OpenOrca、jackhhao/jailbreak-classification
評估指標	準確率（accuracy）
庫名稱	transformers
任務類型	文本分類（text-classification）
標籤	越獄（jailbreak）、安全（security）、審核（moderation）、提示注入（prompt-injection）