J

Jailbreak Classifier

jackhhaoによって開発
bert-base-uncasedをファインチューニングしたテキスト分類モデルで、ユーザープロンプト内のジェイルブレーク試行を検出するために使用されます
ダウンロード数 7,619
リリース時間 : 9/30/2023

モデル概要

このモデルはコンテンツ審査シナリオ専用に設計されており、ユーザープロンプトをジェイルブレーク試行または良性リクエストに分類し、AIシステムの安全性を維持するのに役立ちます。

モデル特徴

ジェイルブレーク検出
ユーザープロンプト内のジェイルブレーク試行を正確に識別し、AIシステムを悪意ある攻撃から保護します
BERTベース
bert-base-uncasedをファインチューニングしており、BERTの強力なテキスト理解能力を継承しています
コンテンツ審査
AIシステムのコンテンツ審査シナリオ向けに最適化されており、システムの安全性維持を支援します

モデル能力

テキスト分類
ジェイルブレーク検出
コンテンツ審査
プロンプトインジェクション識別

使用事例

AIセキュリティ
チャットボット保護
チャットボットに対するユーザーのジェイルブレーク試行を検出します
悪意あるプロンプトインジェクションを効果的に阻止します
コンテンツ審査システム
AIシステムの最初の防衛線として悪意あるリクエストをフィルタリングします
システムの安全性を向上させます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase