Gentelshield - v1オープンソースモデル - 無料でデプロイし、有効にプロンプトインジェクション攻撃を検出・防御する

ホーム

Gentelshield V1

GenTelLabによって開発

GenTel-Shieldはプロンプトインジェクション攻撃の検出と防御に特化したモデルで、悪意のあるサンプルと良性サンプルを効果的に区別できます。

大規模言語モデル

Transformers

#プロンプトインジェクション防御 #複数攻撃タイプ検出 #高精度検出

ダウンロード数 35

リリース時間 : 9/9/2024

モデル概要

このモデルは主に大規模言語モデルに対するプロンプトインジェクション攻撃（ジェイルブレイク攻撃、目標ハイジャック、プロンプト漏洩などのセキュリティ脅威）の検出と防御に使用されます。

モデル特徴

高効率検出

Gentel-Benchベンチマークテストで優れた性能を発揮し、精度は97%以上

高い頑健性

データ拡張技術により、モデルの敵対的サンプル識別能力を向上

包括的な防御

ジェイルブレイク攻撃、目標ハイジャック、プロンプト漏洩の3大攻撃シナリオをカバー

モデル能力

悪意のあるプロンプト検出

テキスト分類

セキュリティ防御

使用事例

大規模言語モデルセキュリティ

ジェイルブレイク攻撃防御

ユーザーがLLMのセキュリティ制限を回避しようとする悪意のあるプロンプトを検出して阻止

精度97.63%、F1値97.69

目標ハイジャック防止

攻撃者が巧妙に設計したプロンプトでLLMの本来の目標をハイジャックするのを防止

精度96.81%、F1値96.74

プロンプト漏洩防止

悪意のあるユーザーによるLLMシステムプロンプトの抽出を保護

精度97.92%、F1値97.89

🚀 GenTel-Shield検出モデル

GenTel-Shield検出モデルは、オンラインソースや専門家の貢献によるデータを用いて構築された訓練データセットを基に、悪意のあるサンプルと良性のサンプルを区別することができます。

🚀 クイックスタート

GenTel-Shield検出モデルの開発は、以下の5つのステップで行われます。

オンラインソースや専門家の貢献からデータを収集し、訓練データセットを構築します。
データにバイナリラベリングとクリーニングを行い、品質を確保します。
データ拡張技術を適用し、データセットを拡張します。
事前学習済みモデルを使用して訓練を行います。
訓練されたモデルは、悪意のあるサンプルと良性のサンプルを区別することができます。

以下はGenTel-Shieldのワークフローです。

gentel-shield

📦 インストール

メトリクス

メトリクス	詳細
メトリクス	accuracy
ライブラリ名	transformers

📚 ドキュメント

訓練データの準備

データ収集

訓練データは、2つの主要なソースから収集されます。1つ目は、jailbreakchat.comやreddit.comなどのウェブサイトを含む公開プラットフォームからのリスクデータです。2つ目は、VMware Open-InstructデータセットやChatbot Instruction PromptsデータセットなどのLLMアプリケーションからの既存のデータセットです。これらのサンプルは、ドメイン専門家によって注釈付けされ、有害な注入攻撃サンプルと良性のサンプルの2つのグループに分類されています。

データ拡張

実世界のシナリオでは、防御モデルの検出を回避できる敵対的なサンプルが存在します。これらのサンプルは、無意味な文字の追加や単語の削除などの操作が行われている場合があり、危険な行動につながる可能性があります。この問題を解決するために、我々はサンプルの意味的な変更と文字レベルの摂動に焦点を当てたデータ拡張を実装しました。文字摂動には、同義語置換、ランダム挿入、ランダム交換、ランダム削除の4つの操作を使用しました。意味的な拡張には、LLMを使用してデータを書き換え、より多様な訓練サンプルを生成しました。

モデル訓練の詳細

我々は、提案する訓練テキストペアデータセットでGenTel-Shieldモデルを微調整しました。モデルは、多言語E5テキスト埋め込みモデルから初期化されます。訓練は、1つのNVIDIA GeForce RTX 4090D (24GB) GPUを搭載した単一のマシンで行われ、バッチサイズは32です。モデルは、学習率2e-5で訓練され、コサイン学習率スケジューラと0.01の重み減衰を使用して過学習を軽減します。メモリ使用量を最適化するために、混合精度 (fp16) 訓練を使用します。また、訓練プロセスには500ステップのウォームアップフェーズが含まれ、最大ノルム1.0の勾配クリッピングを適用します。

評価

データセット

Gentel-Benchは、幅広い注入攻撃に対するモデルの堅牢性を評価するための包括的なフレームワークを提供します。Gentel-Benchの良性データは、LLMの典型的な使用法を反映しており、10のアプリケーションシナリオに分類されています。悪意のあるデータは、84,812のプロンプト注入攻撃から構成され、3つの主要なカテゴリと28の異なるセキュリティシナリオに分散されています。

Gentel-Bench

我々は、Gentel-BenchでJailbreak、Goal Hijacking、Prompt Leaking攻撃の検出におけるモデルの有効性を評価しました。結果は、我々のアプローチがほとんどのシナリオで既存の方法を上回っていることを示しています。

Jailbreak攻撃シナリオにおける分類性能

方法	正解率 ↑	適合率 ↑	F1 ↑	再現率 ↑
ProtectAI	89.46	99.59	88.62	79.83
Hyperion	94.70	94.21	94.88	95.57
Prompt Guard	50.58	51.03	66.85	96.88
Lakera AI	87.20	92.12	86.84	82.14
Deepset	65.69	60.63	75.49	100
Fmops	63.35	59.04	74.25	100
WhyLabs LangKit	78.86	98.48	75.28	60.92
GenTel-Shield(我々の方法)	97.63	98.04	97.69	97.34

Goal Hijacking攻撃シナリオにおける分類性能

方法	正解率 ↑	適合率 ↑	F1 ↑	再現率 ↑
ProtectAI	94.25	99.79	93.95	88.76
Hyperion	90.68	94.53	90.33	86.48
Prompt Guard	50.90	50.61	67.21	100
Lakera AI	74.63	88.59	69.33	56.95
Deepset	63.40	57.90	73.34	100
Fmops	61.03	56.36	72.09	100
WhyLabs LangKit	68.14	97.53	54.35	37.67
GenTel-Shield(我々の方法)	96.81	99.44	96.74	94.19

Prompt Leaking攻撃シナリオにおける分類性能

方法	正解率 ↑	適合率 ↑	F1 ↑	再現率 ↑
ProtectAI	90.94	99.77	90.06	82.08
Hyperion	90.85	95.01	90.41	86.23
Prompt Guard	50.28	50.14	66.79	100
Lakera AI	96.04	93.11	96.17	99.43
Deepset	61.79	57.08	71.34	95.09
Fmops	58.77	55.07	69.80	95.28
WhyLabs LangKit	99.34	99.62	99.34	99.06
GenTel-Shield(我々の方法)	97.92	99.42	97.89	96.42

細分化シナリオ

fig_3

📄 ライセンス

Li, Rongchang, et al. "GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks" arXiv preprint arXiv:2409.19521 (2024).