🚀 GenTel-Shield検出モデル
GenTel-Shield検出モデルは、オンラインソースや専門家の貢献によるデータを用いて構築された訓練データセットを基に、悪意のあるサンプルと良性のサンプルを区別することができます。
🚀 クイックスタート
GenTel-Shield検出モデルの開発は、以下の5つのステップで行われます。
- オンラインソースや専門家の貢献からデータを収集し、訓練データセットを構築します。
- データにバイナリラベリングとクリーニングを行い、品質を確保します。
- データ拡張技術を適用し、データセットを拡張します。
- 事前学習済みモデルを使用して訓練を行います。
- 訓練されたモデルは、悪意のあるサンプルと良性のサンプルを区別することができます。
以下はGenTel-Shieldのワークフローです。

📦 インストール
メトリクス
メトリクス |
詳細 |
メトリクス |
accuracy |
ライブラリ名 |
transformers |
📚 ドキュメント
訓練データの準備
データ収集
訓練データは、2つの主要なソースから収集されます。1つ目は、jailbreakchat.comやreddit.comなどのウェブサイトを含む公開プラットフォームからのリスクデータです。2つ目は、VMware Open-InstructデータセットやChatbot Instruction PromptsデータセットなどのLLMアプリケーションからの既存のデータセットです。これらのサンプルは、ドメイン専門家によって注釈付けされ、有害な注入攻撃サンプルと良性のサンプルの2つのグループに分類されています。
データ拡張
実世界のシナリオでは、防御モデルの検出を回避できる敵対的なサンプルが存在します。これらのサンプルは、無意味な文字の追加や単語の削除などの操作が行われている場合があり、危険な行動につながる可能性があります。この問題を解決するために、我々はサンプルの意味的な変更と文字レベルの摂動に焦点を当てたデータ拡張を実装しました。文字摂動には、同義語置換、ランダム挿入、ランダム交換、ランダム削除の4つの操作を使用しました。意味的な拡張には、LLMを使用してデータを書き換え、より多様な訓練サンプルを生成しました。
モデル訓練の詳細
我々は、提案する訓練テキストペアデータセットでGenTel-Shieldモデルを微調整しました。モデルは、多言語E5テキスト埋め込みモデルから初期化されます。訓練は、1つのNVIDIA GeForce RTX 4090D (24GB) GPUを搭載した単一のマシンで行われ、バッチサイズは32です。モデルは、学習率2e-5で訓練され、コサイン学習率スケジューラと0.01の重み減衰を使用して過学習を軽減します。メモリ使用量を最適化するために、混合精度 (fp16) 訓練を使用します。また、訓練プロセスには500ステップのウォームアップフェーズが含まれ、最大ノルム1.0の勾配クリッピングを適用します。
評価
データセット
Gentel-Benchは、幅広い注入攻撃に対するモデルの堅牢性を評価するための包括的なフレームワークを提供します。Gentel-Benchの良性データは、LLMの典型的な使用法を反映しており、10のアプリケーションシナリオに分類されています。悪意のあるデータは、84,812のプロンプト注入攻撃から構成され、3つの主要なカテゴリと28の異なるセキュリティシナリオに分散されています。
Gentel-Bench
我々は、Gentel-BenchでJailbreak、Goal Hijacking、Prompt Leaking攻撃の検出におけるモデルの有効性を評価しました。結果は、我々のアプローチがほとんどのシナリオで既存の方法を上回っていることを示しています。
Jailbreak攻撃シナリオにおける分類性能
方法 |
正解率 ↑ |
適合率 ↑ |
F1 ↑ |
再現率 ↑ |
ProtectAI |
89.46 |
99.59 |
88.62 |
79.83 |
Hyperion |
94.70 |
94.21 |
94.88 |
95.57 |
Prompt Guard |
50.58 |
51.03 |
66.85 |
96.88 |
Lakera AI |
87.20 |
92.12 |
86.84 |
82.14 |
Deepset |
65.69 |
60.63 |
75.49 |
100 |
Fmops |
63.35 |
59.04 |
74.25 |
100 |
WhyLabs LangKit |
78.86 |
98.48 |
75.28 |
60.92 |
GenTel-Shield(我々の方法) |
97.63 |
98.04 |
97.69 |
97.34 |
Goal Hijacking攻撃シナリオにおける分類性能
方法 |
正解率 ↑ |
適合率 ↑ |
F1 ↑ |
再現率 ↑ |
ProtectAI |
94.25 |
99.79 |
93.95 |
88.76 |
Hyperion |
90.68 |
94.53 |
90.33 |
86.48 |
Prompt Guard |
50.90 |
50.61 |
67.21 |
100 |
Lakera AI |
74.63 |
88.59 |
69.33 |
56.95 |
Deepset |
63.40 |
57.90 |
73.34 |
100 |
Fmops |
61.03 |
56.36 |
72.09 |
100 |
WhyLabs LangKit |
68.14 |
97.53 |
54.35 |
37.67 |
GenTel-Shield(我々の方法) |
96.81 |
99.44 |
96.74 |
94.19 |
Prompt Leaking攻撃シナリオにおける分類性能
方法 |
正解率 ↑ |
適合率 ↑ |
F1 ↑ |
再現率 ↑ |
ProtectAI |
90.94 |
99.77 |
90.06 |
82.08 |
Hyperion |
90.85 |
95.01 |
90.41 |
86.23 |
Prompt Guard |
50.28 |
50.14 |
66.79 |
100 |
Lakera AI |
96.04 |
93.11 |
96.17 |
99.43 |
Deepset |
61.79 |
57.08 |
71.34 |
95.09 |
Fmops |
58.77 |
55.07 |
69.80 |
95.28 |
WhyLabs LangKit |
99.34 |
99.62 |
99.34 |
99.06 |
GenTel-Shield(我々の方法) |
97.92 |
99.42 |
97.89 |
96.42 |
細分化シナリオ

📄 ライセンス
Li, Rongchang, et al. "GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks" arXiv preprint arXiv:2409.19521 (2024).