Jailbreak-classifier Open-source Text Classification Model - Free Deployment to Detect Jailbreak Attempts in Prompts

Home

Jailbreak Classifier

Developed by jackhhao

A text classification model fine-tuned on bert-base-uncased for detecting jailbreak attempts in user prompts

Text Classification

Transformers

EnglishOpen Source License:Apache-2.0 #Prompt Injection Detection #Content Security Review #BERT Fine-tuning

Downloads 7,619

Release Time : 9/30/2023

Model Overview

This model is specifically designed for content moderation scenarios, capable of classifying user prompts as jailbreak attempts or benign requests, helping to maintain the security of AI systems.

Model Features

Jailbreak Detection

Accurately identifies jailbreak attempts in user prompts, protecting AI systems from malicious attacks

BERT-based

Fine-tuned on bert-base-uncased, inheriting BERT's powerful text understanding capabilities

Content Moderation

Optimized for AI system content moderation scenarios, helping to maintain system security

Model Capabilities

Text Classification

Jailbreak Detection

Content Moderation

Prompt Injection Identification

Use Cases

AI Security

Chatbot Protection

Detects jailbreak attempts against chatbots

Effectively blocks malicious prompt injections

Content Moderation System

Serves as the first line of defense for AI systems to filter malicious requests

Enhances system security

Property	Details
learning_rate	5e-5
train_batch_size	8
eval_batch_size	8
lr_scheduler_type	linear
num_train_epochs	5.0

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Jailbreak Classifier

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Jailbreak Classifier

🚀 Quick Start

✨ Features

📚 Documentation

Training Details

Training Data

Training Procedure

Training Hyperparameters

📄 License