🚀 穿山甲防护基础版(PangolinGuard-Base)
大语言模型(LLM)应用在面临提示注入和越狱攻击时,面临着严重的安全挑战。这可能导致模型泄露敏感数据或偏离预期行为。现有的防护模型并非完全开源,且上下文窗口有限(例如,LlamaGuard 仅支持 512 个标记)。
穿山甲防护(Pangolin Guard) 是一款基于 ModernBERT(基础版)的轻量级模型,能够有效识别恶意提示(即提示注入攻击)。
🤗 技术博客 | GitHub 仓库
🚀 快速开始
推理示例
from transformers import pipeline
classifier = pipeline("text-classification", "dcarpintero/pangolin-guard-base")
text = "your input text"
output = classifier(text)
✨ 主要特性
- 为人工智能代理和对话界面添加一种自托管、低成本的防御机制,以抵御提示注入攻击。
📚 详细文档
评估数据
该模型在专门针对提示安全和恶意输入检测的基准测试子集的未见数据上进行了评估,同时测试了过度防御行为:
- NotInject:通过包含丰富的常见于提示注入攻击的触发词的良性输入,来衡量提示防护模型的过度防御情况。
- BIPIA:通过间接提示注入攻击评估隐私侵犯尝试和边界突破查询。
- Wildguard-Benign:代表合法但可能存在歧义的提示。
- PINT:评估特别细微的提示注入、越狱攻击以及可能被误识别为恶意的良性提示。

训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):5e-05
- 训练批次大小(train_batch_size):64
- 评估批次大小(eval_batch_size):32
- 随机种子(seed):42
- 优化器(optimizer):使用 OptimizerNames.ADAMW_TORCH_FUSED,β值为(0.9, 0.999),ε值为 1e-08,无额外优化器参数
- 学习率调度器类型(lr_scheduler_type):线性
- 训练轮数(num_epochs):2
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
F1 分数 |
准确率 |
0.1622 |
0.1042 |
100 |
0.0755 |
0.9604 |
0.9741 |
0.0694 |
0.2083 |
200 |
0.0525 |
0.9735 |
0.9828 |
0.0552 |
0.3125 |
300 |
0.0857 |
0.9696 |
0.9810 |
0.0535 |
0.4167 |
400 |
0.0345 |
0.9825 |
0.9889 |
0.0371 |
0.5208 |
500 |
0.0343 |
0.9821 |
0.9887 |
0.0402 |
0.625 |
600 |
0.0344 |
0.9836 |
0.9894 |
0.037 |
0.7292 |
700 |
0.0282 |
0.9869 |
0.9917 |
0.0265 |
0.8333 |
800 |
0.0229 |
0.9895 |
0.9933 |
0.0285 |
0.9375 |
900 |
0.0240 |
0.9885 |
0.9926 |
0.0191 |
1.0417 |
1000 |
0.0220 |
0.9908 |
0.9941 |
0.0134 |
1.1458 |
1100 |
0.0228 |
0.9911 |
0.9943 |
0.0124 |
1.25 |
1200 |
0.0230 |
0.9898 |
0.9935 |
0.0136 |
1.3542 |
1300 |
0.0212 |
0.9910 |
0.9943 |
0.0088 |
1.4583 |
1400 |
0.0229 |
0.9911 |
0.9943 |
0.0115 |
1.5625 |
1500 |
0.0211 |
0.9922 |
0.9950 |
0.0058 |
1.6667 |
1600 |
0.0233 |
0.9920 |
0.9949 |
0.0119 |
1.7708 |
1700 |
0.0199 |
0.9916 |
0.9946 |
0.0072 |
1.875 |
1800 |
0.0206 |
0.9925 |
0.9952 |
0.007 |
1.9792 |
1900 |
0.0196 |
0.9923 |
0.9950 |
框架版本
- Transformers 4.50.0
- Pytorch 2.6.0+cu124
- Datasets 3.4.1
- Tokenizers 0.21.1
📄 许可证
本项目采用 Apache-2.0 许可证。
📦 模型信息
属性 |
详情 |
库名称 |
transformers |
许可证 |
Apache-2.0 |
基础模型 |
answerdotai/ModernBERT-base |
标签 |
AI 安全、防护措施、护栏 |
评估指标 |
F1、准确率 |
模型名称 |
pangolin-guard-base |