🚀 穿山甲卫士大模型(PangolinGuard-Large)
大语言模型(LLM)应用面临着诸如提示注入和越狱攻击等严重的安全挑战,这可能导致模型泄露敏感数据或偏离预期行为。现有的防护模型并非完全开源,且上下文窗口有限(例如,LlamaGuard 仅支持 512 个标记)。
穿山甲卫士(Pangolin Guard) 是一款基于 ModernBERT(Large)的轻量级模型,能够有效识别恶意提示(即提示注入攻击)。
🤗 技术博客 | GitHub 仓库
🚀 快速开始
大语言模型应用面临着提示注入和越狱等关键安全挑战,可能导致模型泄露敏感信息或偏离预期行为。而现有的防护模型存在不够开源且上下文窗口有限的问题。穿山甲卫士(Pangolin Guard)作为一款轻量级模型,能有效识别恶意提示,为大语言模型应用提供了一种新的安全防护方案。
✨ 主要特性
- 为 AI 代理和对话界面添加自托管、低成本的防御机制,抵御提示注入攻击。
📚 详细文档
评估数据
该模型在针对提示安全和恶意输入检测的专业基准测试子集的未见数据上进行了评估,同时测试了过度防御行为:
- NotInject:通过包含在提示注入攻击中常见的触发词的良性输入,来衡量提示防护模型的过度防御情况。
- BIPIA:通过间接提示注入攻击评估隐私侵犯尝试和边界试探查询。
- Wildguard-Benign:代表合法但可能存在歧义的提示。
- PINT:评估特别细微的提示注入、越狱以及可能被误识别为恶意的良性提示。

训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):5e - 05
- 训练批次大小(train_batch_size):64
- 评估批次大小(eval_batch_size):32
- 随机种子(seed):42
- 优化器(optimizer):使用 OptimizerNames.ADAMW_TORCH_FUSED,β值为 (0.9, 0.999),ε值为 1e - 08
- 学习率调度器类型(lr_scheduler_type):线性
- 混合精度(bf16):True
- 训练轮数(num_epochs):2
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
F1 值 |
准确率 |
0.1519 |
0.1042 |
100 |
0.1354 |
0.9229 |
0.9534 |
0.068 |
0.2083 |
200 |
0.0553 |
0.9689 |
0.9797 |
0.0458 |
0.3125 |
300 |
0.0555 |
0.9758 |
0.9844 |
0.0389 |
0.4167 |
400 |
0.0442 |
0.9804 |
0.9874 |
0.04 |
0.5208 |
500 |
0.0323 |
0.9842 |
0.9897 |
0.0308 |
0.625 |
600 |
0.0357 |
0.9836 |
0.9894 |
0.0357 |
0.7292 |
700 |
0.0336 |
0.9861 |
0.9909 |
0.0306 |
0.8333 |
800 |
0.0299 |
0.9880 |
0.9921 |
0.0246 |
0.9375 |
900 |
0.0338 |
0.9846 |
0.9900 |
0.0195 |
1.0417 |
1000 |
0.0260 |
0.9881 |
0.9922 |
0.0124 |
1.1458 |
1100 |
0.0225 |
0.9887 |
0.9926 |
0.005 |
1.25 |
1200 |
0.0286 |
0.9874 |
0.9917 |
0.0075 |
1.3542 |
1300 |
0.0313 |
0.9897 |
0.9933 |
0.0065 |
1.4583 |
1400 |
0.0318 |
0.9892 |
0.9930 |
0.0093 |
1.5625 |
1500 |
0.0257 |
0.9903 |
0.9937 |
0.0099 |
1.6667 |
1600 |
0.0233 |
0.9889 |
0.9927 |
0.0054 |
1.7708 |
1700 |
0.0221 |
0.9905 |
0.9938 |
0.0077 |
1.875 |
1800 |
0.0222 |
0.9907 |
0.9939 |
0.0052 |
1.9792 |
1900 |
0.0225 |
0.9904 |
0.9937 |
框架版本
- Transformers 4.48.3
- Pytorch 2.5.1 + cu124
- Datasets 3.3.2
- Tokenizers 0.21.0
📄 许可证
本项目采用 Apache 2.0 许可证。