jailbreak-classifierオープンソース文本分類モデル - 無料でデプロイして脱獄試行の検出を行う

ホーム

Jailbreak Classifier

jackhhaoによって開発

bert-base-uncasedをファインチューニングしたテキスト分類モデルで、ユーザープロンプト内のジェイルブレーク試行を検出するために使用されます

テキスト分類

Transformers

英語オープンソースライセンス:Apache-2.0 #プロンプトインジェクション検出 #コンテンツセキュリティ審査 #BERTファインチューニング

ダウンロード数 7,619

リリース時間 : 9/30/2023

モデル概要

このモデルはコンテンツ審査シナリオ専用に設計されており、ユーザープロンプトをジェイルブレーク試行または良性リクエストに分類し、AIシステムの安全性を維持するのに役立ちます。

モデル特徴

ジェイルブレーク検出

ユーザープロンプト内のジェイルブレーク試行を正確に識別し、AIシステムを悪意ある攻撃から保護します

BERTベース

bert-base-uncasedをファインチューニングしており、BERTの強力なテキスト理解能力を継承しています

コンテンツ審査

AIシステムのコンテンツ審査シナリオ向けに最適化されており、システムの安全性維持を支援します

モデル能力

テキスト分類

ジェイルブレーク検出

コンテンツ審査

プロンプトインジェクション識別

使用事例

AIセキュリティ

チャットボット保護

チャットボットに対するユーザーのジェイルブレーク試行を検出します

悪意あるプロンプトインジェクションを効果的に阻止します

コンテンツ審査システム

AIシステムの最初の防衛線として悪意あるリクエストをフィルタリングします

システムの安全性を向上させます

プロパティ	詳細
モデルタイプ	テキスト分類
学習データ	Open-Orca/OpenOrca、jackhhao/jailbreak-classification
評価指標	正解率
ライブラリ名	transformers
タグ	jailbreak、security、moderation、prompt-injection

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Jailbreak Classifier

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ジェイルブレイク分類器

🚀 クイックスタート

✨ 主な機能

🔧 技術詳細

学習データ

学習手順

学習ハイパーパラメータ

📄 ライセンス