🚀 穿山甲衛士大模型(PangolinGuard-Large)
大語言模型(LLM)應用面臨著諸如提示注入和越獄攻擊等嚴重的安全挑戰,這可能導致模型洩露敏感數據或偏離預期行為。現有的防護模型並非完全開源,且上下文窗口有限(例如,LlamaGuard 僅支持 512 個標記)。
穿山甲衛士(Pangolin Guard) 是一款基於 ModernBERT(Large)的輕量級模型,能夠有效識別惡意提示(即提示注入攻擊)。
🤗 技術博客 | GitHub 倉庫
🚀 快速開始
大語言模型應用面臨著提示注入和越獄等關鍵安全挑戰,可能導致模型洩露敏感信息或偏離預期行為。而現有的防護模型存在不夠開源且上下文窗口有限的問題。穿山甲衛士(Pangolin Guard)作為一款輕量級模型,能有效識別惡意提示,為大語言模型應用提供了一種新的安全防護方案。
✨ 主要特性
- 為 AI 代理和對話界面添加自託管、低成本的防禦機制,抵禦提示注入攻擊。
📚 詳細文檔
評估數據
該模型在針對提示安全和惡意輸入檢測的專業基準測試子集的未見數據上進行了評估,同時測試了過度防禦行為:
- NotInject:通過包含在提示注入攻擊中常見的觸發詞的良性輸入,來衡量提示防護模型的過度防禦情況。
- BIPIA:通過間接提示注入攻擊評估隱私侵犯嘗試和邊界試探查詢。
- Wildguard-Benign:代表合法但可能存在歧義的提示。
- PINT:評估特別細微的提示注入、越獄以及可能被誤識別為惡意的良性提示。

訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):5e - 05
- 訓練批次大小(train_batch_size):64
- 評估批次大小(eval_batch_size):32
- 隨機種子(seed):42
- 優化器(optimizer):使用 OptimizerNames.ADAMW_TORCH_FUSED,β值為 (0.9, 0.999),ε值為 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 混合精度(bf16):True
- 訓練輪數(num_epochs):2
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
F1 值 |
準確率 |
0.1519 |
0.1042 |
100 |
0.1354 |
0.9229 |
0.9534 |
0.068 |
0.2083 |
200 |
0.0553 |
0.9689 |
0.9797 |
0.0458 |
0.3125 |
300 |
0.0555 |
0.9758 |
0.9844 |
0.0389 |
0.4167 |
400 |
0.0442 |
0.9804 |
0.9874 |
0.04 |
0.5208 |
500 |
0.0323 |
0.9842 |
0.9897 |
0.0308 |
0.625 |
600 |
0.0357 |
0.9836 |
0.9894 |
0.0357 |
0.7292 |
700 |
0.0336 |
0.9861 |
0.9909 |
0.0306 |
0.8333 |
800 |
0.0299 |
0.9880 |
0.9921 |
0.0246 |
0.9375 |
900 |
0.0338 |
0.9846 |
0.9900 |
0.0195 |
1.0417 |
1000 |
0.0260 |
0.9881 |
0.9922 |
0.0124 |
1.1458 |
1100 |
0.0225 |
0.9887 |
0.9926 |
0.005 |
1.25 |
1200 |
0.0286 |
0.9874 |
0.9917 |
0.0075 |
1.3542 |
1300 |
0.0313 |
0.9897 |
0.9933 |
0.0065 |
1.4583 |
1400 |
0.0318 |
0.9892 |
0.9930 |
0.0093 |
1.5625 |
1500 |
0.0257 |
0.9903 |
0.9937 |
0.0099 |
1.6667 |
1600 |
0.0233 |
0.9889 |
0.9927 |
0.0054 |
1.7708 |
1700 |
0.0221 |
0.9905 |
0.9938 |
0.0077 |
1.875 |
1800 |
0.0222 |
0.9907 |
0.9939 |
0.0052 |
1.9792 |
1900 |
0.0225 |
0.9904 |
0.9937 |
框架版本
- Transformers 4.48.3
- Pytorch 2.5.1 + cu124
- Datasets 3.3.2
- Tokenizers 0.21.0
📄 許可證
本項目採用 Apache 2.0 許可證。