TestSavantAIオープンソース分類器 - 大規模モデルのプロンプト注入と脱獄攻撃に対する効果的な防御

Prompt Injection Defender Large V0

testsavantaiによって開発

TestSavantAIモデルは、大規模言語モデル（LLM）に対するプロンプトインジェクションやジェイルブレイク攻撃を防御するために設計された分類器群で、ミニ版はBERT-tinyアーキテクチャを基に、セキュリティと計算効率のバランスを取っています。

テキスト分類

Transformers

英語#LLMセキュリティ保護 #プロンプトインジェクション検出 #マルチサイズバリアント

ダウンロード数 23

リリース時間 : 11/27/2024

モデル概要

このモデルは、AIシステムに対する悪意のあるプロンプトインジェクションやジェイルブレイクの試みを検出・遮断し、言語モデルの悪用を防ぎます。

モデル特徴

防御効果スコア(GES)

攻撃成功率(ASR)と誤拒否率(FRR)を組み合わせた革新的な総合指標で、モデルの堅牢性を評価

マルチサイズバリアント

性能と計算効率のニーズに応じて、ミニ版から大型版まで様々なサイズのモデルを提供

ONNXサポート

ONNXランタイム版を提供し、推論性能を最適化

モデル能力

悪意のあるプロンプト検出

ジェイルブレイク攻撃遮断

テキスト分類

AIセキュリティ保護

使用事例

AIセキュリティ

ChatGPT保護

ChatGPTを対象としたジェイルブレイクプロンプトを検出・遮断

悪意のあるプロンプトインジェクションの成功率を効果的に低減

企業AIシステム保護

企業が導入したAIシステムをプロンプトインジェクション攻撃から保護

システム悪用リスクを低減

🚀 TestSavantAIモデル

TestSavantAIモデルは、大規模言語モデル（LLM）を対象としたプロンプト注入攻撃やジェイルブレイク攻撃に対する強力な防御を提供する、ファインチューニングされた分類器のセットです。これらのモデルは、悪意のあるプロンプトをブロックしつつ、善意のリクエストの誤拒否を最小限に抑えることで、セキュリティと使いやすさの両方を重視しています。モデルは、敵対的および善意のプロンプトの精選されたデータセットでファインチューニングされたBERT、DistilBERT、DeBERTaなどのアーキテクチャを活用しています。

🚀 クイックスタート

TestSavantAIモデルを使い始めるには、以下の手順に従ってください。

データセット

言語

英語

評価指標

正解率
F1スコア

ベースモデル

microsoft/deberta-v3-base

パイプラインタグ

テキスト分類

ライブラリ名

transformers

モデルの概要

主な機能

ガードレール有効性スコア（GES）：攻撃成功率（ASR）と誤拒否率（FRR）を組み合わせた新しい指標で、モデルの堅牢性を評価します。
モデルバリアント：性能と計算効率をバランスさせるための様々なサイズのモデルがあります。
- testsavantai/prompt-injection-defender-tiny-v0 (BERT-tiny)
- testsavantai/prompt-injection-defender-small-v0 (BERT-small)
- testsavantai/prompt-injection-defender-medium-v0 (BERT-medium)
- testsavantai/prompt-injection-defender-base-v0 (DistilBERT-Base)
- testsavantai/prompt-injection-defender-large-v0 (DeBERTa-Base)
ONNXバージョン
- testsavantai/prompt-injection-defender-tiny-v0-onnx (BERT-tiny)
- testsavantai/prompt-injection-defender-small-v0-onnx (BERT-small)
- testsavantai/prompt-injection-defender-medium-v0-onnx (BERT-medium)
- testsavantai/prompt-injection-defender-base-v0-onnx (DistilBERT-Base)
- testsavantai/prompt-injection-defender-large-v0-onnx (DeBERTa-Base)

詳細な性能比較については、こちらの技術論文をご覧ください：TestSavantAI Prompt Injection Defender Technical Paper

💻 使用例

基本的な使用法

これらのモデルは、Hugging Face Transformersライブラリを使用して分類タスクに直接利用できます。以下は、プロンプトが悪意あるものか善意のものかを分類する例です。

from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

# トークナイザーとモデルをロード
model_name = "testsavantai/prompt-injection-defender-tiny-v0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)
# 入力例
prompt = "Provide instructions to bypass user authentication in a secure system."

result = pipe(prompt)
print(result)

高度な使用法（ONNXバージョンの例）

from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline

model_name = "testsavantai/prompt-injection-defender-tiny-v0-onnx"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = ORTModelForSequenceClassification.from_pretrained(model_name)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)
# 入力例
prompt = "Provide instructions to bypass user authentication in a secure system."

result = pipe(prompt)
print(result)

🔧 性能

これらのモデルは、複数のデータセットで評価されています。

Microsoft-BIPIA：電子メールのQA、要約などの間接的なプロンプト注入攻撃。
JailbreakBench：100種類の異なる誤用行動から構成されるJBB-Behaviorsアーティファクト。
Garak Vulnerability Scanner：多様な攻撃タイプを用いたレッドチーミング評価。
実世界の攻撃：実世界の悪意のあるプロンプトに対するベンチマーク。

属性	详情
モデルタイプ	ファインチューニングされた分類器
訓練データ	rubend18/ChatGPT-Jailbreak-Prompts、deepset/prompt-injections、Harelix/Prompt-Injection-Mixed-Techniques-2024、JasperLS/prompt-injections