pangolin-guard-large開源模型 - 輕量級免費識別惡意提示攻擊

首頁

Pangolin Guard Large

由dcarpintero開發

基於ModernBERT（大模型版）的輕量級模型，專用於識別惡意提示（即提示注入攻擊）。

大型語言模型

Transformers

開源協議:Apache-2.0 #提示注入防禦 #輕量級安全模型 #自託管防護

下載量 72

發布時間 : 3/11/2025

模型概述

巨蜥守衛是一個專為識別和防禦大語言模型（LLM）應用中的提示注入和越獄等安全挑戰而設計的輕量級模型。它能夠有效防止敏感數據洩露或模型行為偏離預期。

模型特點

輕量級設計

模型設計輕量，適合自託管和低成本部署。

高準確率

在專項基準測試中表現出高準確率和F1分數，有效識別惡意提示。

開源

完全開源，便於社區使用和改進。

低過度防禦傾向

通過NotInject測試，衡量防護模型的過度防禦傾向，確保良性輸入不被誤判。

模型能力

識別惡意提示

防禦提示注入攻擊

檢測越獄攻擊

保護敏感數據

使用案例

AI代理和對話界面

自託管防禦機制

為AI代理和對話界面添加自託管、低成本的提示注入攻擊防禦機制。

有效防止敏感數據洩露和模型行為偏離預期。

安全防護

隱私侵犯嘗試檢測

評估隱私侵犯嘗試和通過間接提示注入攻擊提出的邊界試探性查詢。

高準確率識別惡意行為。

🚀 穿山甲衛士大模型（PangolinGuard-Large）

大語言模型（LLM）應用面臨著諸如提示注入和越獄攻擊等嚴重的安全挑戰，這可能導致模型洩露敏感數據或偏離預期行為。現有的防護模型並非完全開源，且上下文窗口有限（例如，LlamaGuard 僅支持 512 個標記）。

穿山甲衛士（Pangolin Guard） 是一款基於 ModernBERT（Large）的輕量級模型，能夠有效識別惡意提示（即提示注入攻擊）。

🤗 技術博客 | GitHub 倉庫

🚀 快速開始

大語言模型應用面臨著提示注入和越獄等關鍵安全挑戰，可能導致模型洩露敏感信息或偏離預期行為。而現有的防護模型存在不夠開源且上下文窗口有限的問題。穿山甲衛士（Pangolin Guard）作為一款輕量級模型，能有效識別惡意提示，為大語言模型應用提供了一種新的安全防護方案。

✨ 主要特性

為 AI 代理和對話界面添加自託管、低成本的防禦機制，抵禦提示注入攻擊。

📚 詳細文檔

評估數據

該模型在針對提示安全和惡意輸入檢測的專業基準測試子集的未見數據上進行了評估，同時測試了過度防禦行為：

NotInject：通過包含在提示注入攻擊中常見的觸發詞的良性輸入，來衡量提示防護模型的過度防禦情況。
BIPIA：通過間接提示注入攻擊評估隱私侵犯嘗試和邊界試探查詢。
Wildguard-Benign：代表合法但可能存在歧義的提示。
PINT：評估特別細微的提示注入、越獄以及可能被誤識別為惡意的良性提示。

image/png

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：5e - 05
訓練批次大小（train_batch_size）：64
評估批次大小（eval_batch_size）：32
隨機種子（seed）：42
優化器（optimizer）：使用 OptimizerNames.ADAMW_TORCH_FUSED，β值為 (0.9, 0.999)，ε值為 1e - 08
學習率調度器類型（lr_scheduler_type）：線性
混合精度（bf16）：True
訓練輪數（num_epochs）：2

訓練結果

訓練損失	輪數	步數	驗證損失	F1 值	準確率
0.1519	0.1042	100	0.1354	0.9229	0.9534
0.068	0.2083	200	0.0553	0.9689	0.9797
0.0458	0.3125	300	0.0555	0.9758	0.9844
0.0389	0.4167	400	0.0442	0.9804	0.9874
0.04	0.5208	500	0.0323	0.9842	0.9897
0.0308	0.625	600	0.0357	0.9836	0.9894
0.0357	0.7292	700	0.0336	0.9861	0.9909
0.0306	0.8333	800	0.0299	0.9880	0.9921
0.0246	0.9375	900	0.0338	0.9846	0.9900
0.0195	1.0417	1000	0.0260	0.9881	0.9922
0.0124	1.1458	1100	0.0225	0.9887	0.9926
0.005	1.25	1200	0.0286	0.9874	0.9917
0.0075	1.3542	1300	0.0313	0.9897	0.9933
0.0065	1.4583	1400	0.0318	0.9892	0.9930
0.0093	1.5625	1500	0.0257	0.9903	0.9937
0.0099	1.6667	1600	0.0233	0.9889	0.9927
0.0054	1.7708	1700	0.0221	0.9905	0.9938
0.0077	1.875	1800	0.0222	0.9907	0.9939
0.0052	1.9792	1900	0.0225	0.9904	0.9937