pangolin - guard - largeオープンソースモデル - 軽量級で無料の悪意のあるプロンプト攻撃識別

ホーム

Pangolin Guard Large

dcarpinteroによって開発

ModernBERT（大規模モデル版）を基にした軽量モデルで、悪意のあるプロンプト（プロンプトインジェクション攻撃）の識別に特化しています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #プロンプトインジェクション防御 #軽量セキュリティモデル #セルフホスティング保護

ダウンロード数 72

リリース時間 : 3/11/2025

モデル概要

パンゴリンガードは、大規模言語モデル（LLM）アプリケーションにおけるプロンプトインジェクションやジェイルブレイクなどのセキュリティ課題を識別・防御するために設計された軽量モデルです。機密データの漏洩やモデル動作の予期せぬ逸脱を効果的に防止します。

モデル特徴

軽量設計

モデルは軽量に設計されており、セルフホスティングや低コストでの展開に適しています。

高精度

専門的なベンチマークテストで高い精度とF1スコアを示し、悪意のあるプロンプトを効果的に識別します。

オープンソース

完全にオープンソース化されており、コミュニティでの利用や改良が容易です。

過剰防御傾向の低減

NotInjectテストにより、防御モデルの過剰防御傾向を測定し、良性の入力が誤判定されないことを保証します。

モデル能力

悪意のあるプロンプトの識別

プロンプトインジェクション攻撃の防御

ジェイルブレイク攻撃の検出

機密データの保護

使用事例

AIエージェントと対話インターフェース

セルフホスティング防御メカニズム

AIエージェントや対話インターフェースに、セルフホスティングで低コストなプロンプトインジェクション攻撃防御メカニズムを追加します。

機密データの漏洩やモデル動作の予期せぬ逸脱を効果的に防止します。

セキュリティ保護

プライバシー侵害試行の検出

プライバシー侵害試行や間接的なプロンプトインジェクション攻撃による境界テストクエリを評価します。

高い精度で悪意のある行動を識別します。

🚀 PangolinGuard-Large

LLMアプリケーションは、プロンプトインジェクションやジェイルブレイクといった重大なセキュリティ問題に直面しています。これにより、モデルが機密データを漏洩したり、意図した動作から逸脱したりする可能性があります。既存のセーフガードモデルは完全にオープンではなく、コンテキストウィンドウが限られています（例えば、LlamaGuardでは512トークンのみ）。

Pangolin Guard は、悪意のあるプロンプト（すなわち、プロンプトインジェクション攻撃）を識別する軽量なModernBERT（Large）モデルです。

🤗 Tech-Blog | GitHub Repo

🚀 クイックスタート

このセクションでは、Pangolin Guardを使用するための基本的な手順を説明します。

✨ 主な機能

AIエージェントや会話型インターフェイスに、自前で安価にプロンプトインジェクション攻撃に対する防御機構を追加することができます。

📚 ドキュメント

想定される使用事例

AIエージェントや会話型インターフェイスに、自前で安価にプロンプトインジェクション攻撃に対する防御機構を追加する。

評価データ

プロンプトの安全性と悪意のある入力検出を対象とした特殊なベンチマークのサブセットからの未見データで評価され、過剰防御の挙動もテストされました。

NotInject: プロンプトインジェクション攻撃で一般的なトリガーワードを含む良性入力を含めることで、プロンプトガードモデルの過剰防御を測定するように設計されています。
BIPIA: 間接的なプロンプトインジェクション攻撃を通じたプライバシー侵害の試みや境界を押し広げるクエリを評価します。
Wildguard-Benign: 正当であるが潜在的に曖昧なプロンプトを表します。
PINT: 特に微妙なプロンプトインジェクション、ジェイルブレイク、および悪意と誤認される可能性のある良性プロンプトを評価します。

image/png

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

learning_rate: 5e-05
train_batch_size: 64
eval_batch_size: 32
seed: 42
optimizer: betas=(0.9,0.999) および epsilon=1e-08 の OptimizerNames.ADAMW_TORCH_FUSED を使用
lr_scheduler_type: linear
bf16: True
num_epochs: 2

学習結果

学習損失	エポック	ステップ	検証損失	F1値	正解率
0.1519	0.1042	100	0.1354	0.9229	0.9534
0.068	0.2083	200	0.0553	0.9689	0.9797
0.0458	0.3125	300	0.0555	0.9758	0.9844
0.0389	0.4167	400	0.0442	0.9804	0.9874
0.04	0.5208	500	0.0323	0.9842	0.9897
0.0308	0.625	600	0.0357	0.9836	0.9894
0.0357	0.7292	700	0.0336	0.9861	0.9909
0.0306	0.8333	800	0.0299	0.9880	0.9921
0.0246	0.9375	900	0.0338	0.9846	0.9900
0.0195	1.0417	1000	0.0260	0.9881	0.9922
0.0124	1.1458	1100	0.0225	0.9887	0.9926
0.005	1.25	1200	0.0286	0.9874	0.9917
0.0075	1.3542	1300	0.0313	0.9897	0.9933
0.0065	1.4583	1400	0.0318	0.9892	0.9930
0.0093	1.5625	1500	0.0257	0.9903	0.9937
0.0099	1.6667	1600	0.0233	0.9889	0.9927
0.0054	1.7708	1700	0.0221	0.9905	0.9938
0.0077	1.875	1800	0.0222	0.9907	0.9939
0.0052	1.9792	1900	0.0225	0.9904	0.9937