🚀 穿山甲防護基礎版(PangolinGuard-Base)
大語言模型(LLM)應用在面臨提示注入和越獄攻擊時,面臨著嚴重的安全挑戰。這可能導致模型洩露敏感數據或偏離預期行為。現有的防護模型並非完全開源,且上下文窗口有限(例如,LlamaGuard 僅支持 512 個標記)。
穿山甲防護(Pangolin Guard) 是一款基於 ModernBERT(基礎版)的輕量級模型,能夠有效識別惡意提示(即提示注入攻擊)。
🤗 技術博客 | GitHub 倉庫
🚀 快速開始
推理示例
from transformers import pipeline
classifier = pipeline("text-classification", "dcarpintero/pangolin-guard-base")
text = "your input text"
output = classifier(text)
✨ 主要特性
- 為人工智能代理和對話界面添加一種自託管、低成本的防禦機制,以抵禦提示注入攻擊。
📚 詳細文檔
評估數據
該模型在專門針對提示安全和惡意輸入檢測的基準測試子集的未見數據上進行了評估,同時測試了過度防禦行為:
- NotInject:通過包含豐富的常見於提示注入攻擊的觸發詞的良性輸入,來衡量提示防護模型的過度防禦情況。
- BIPIA:通過間接提示注入攻擊評估隱私侵犯嘗試和邊界突破查詢。
- Wildguard-Benign:代表合法但可能存在歧義的提示。
- PINT:評估特別細微的提示注入、越獄攻擊以及可能被誤識別為惡意的良性提示。

訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):5e-05
- 訓練批次大小(train_batch_size):64
- 評估批次大小(eval_batch_size):32
- 隨機種子(seed):42
- 優化器(optimizer):使用 OptimizerNames.ADAMW_TORCH_FUSED,β值為(0.9, 0.999),ε值為 1e-08,無額外優化器參數
- 學習率調度器類型(lr_scheduler_type):線性
- 訓練輪數(num_epochs):2
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
F1 分數 |
準確率 |
0.1622 |
0.1042 |
100 |
0.0755 |
0.9604 |
0.9741 |
0.0694 |
0.2083 |
200 |
0.0525 |
0.9735 |
0.9828 |
0.0552 |
0.3125 |
300 |
0.0857 |
0.9696 |
0.9810 |
0.0535 |
0.4167 |
400 |
0.0345 |
0.9825 |
0.9889 |
0.0371 |
0.5208 |
500 |
0.0343 |
0.9821 |
0.9887 |
0.0402 |
0.625 |
600 |
0.0344 |
0.9836 |
0.9894 |
0.037 |
0.7292 |
700 |
0.0282 |
0.9869 |
0.9917 |
0.0265 |
0.8333 |
800 |
0.0229 |
0.9895 |
0.9933 |
0.0285 |
0.9375 |
900 |
0.0240 |
0.9885 |
0.9926 |
0.0191 |
1.0417 |
1000 |
0.0220 |
0.9908 |
0.9941 |
0.0134 |
1.1458 |
1100 |
0.0228 |
0.9911 |
0.9943 |
0.0124 |
1.25 |
1200 |
0.0230 |
0.9898 |
0.9935 |
0.0136 |
1.3542 |
1300 |
0.0212 |
0.9910 |
0.9943 |
0.0088 |
1.4583 |
1400 |
0.0229 |
0.9911 |
0.9943 |
0.0115 |
1.5625 |
1500 |
0.0211 |
0.9922 |
0.9950 |
0.0058 |
1.6667 |
1600 |
0.0233 |
0.9920 |
0.9949 |
0.0119 |
1.7708 |
1700 |
0.0199 |
0.9916 |
0.9946 |
0.0072 |
1.875 |
1800 |
0.0206 |
0.9925 |
0.9952 |
0.007 |
1.9792 |
1900 |
0.0196 |
0.9923 |
0.9950 |
框架版本
- Transformers 4.50.0
- Pytorch 2.6.0+cu124
- Datasets 3.4.1
- Tokenizers 0.21.1
📄 許可證
本項目採用 Apache-2.0 許可證。
📦 模型信息
屬性 |
詳情 |
庫名稱 |
transformers |
許可證 |
Apache-2.0 |
基礎模型 |
answerdotai/ModernBERT-base |
標籤 |
AI 安全、防護措施、護欄 |
評估指標 |
F1、準確率 |
模型名稱 |
pangolin-guard-base |