pangolin-guard-base開源模型 - 輕鬆識別惡意提示注入，免費提供AI安全防護

首頁

Pangolin Guard Base

由dcarpintero開發

基於ModernBERT的輕量級模型，專注於識別惡意提示注入攻擊，提供AI安全防護。

文本分類

Transformers

開源協議:Apache-2.0 #提示注入防禦 #輕量級安全模型 #自託管防護

下載量 83

發布時間 : 3/15/2025

模型概述

潘高林防護是一個針對大語言模型（LLM）應用中的提示注入和越獄等安全挑戰設計的防護模型。它能夠識別惡意提示，防止敏感數據洩露或行為偏離預期。

模型特點

輕量級設計

基於ModernBERT的輕量級架構，適合自託管和低成本部署。

開源可用

完全開源，不同於部分未完全開源的現有防護模型。

上下文窗口優化

相比LlamaGuard等僅支持512詞元的模型，提供更優的上下文處理能力。

多場景防護

能夠識別多種類型的提示注入攻擊，包括直接和間接提示注入。

模型能力

惡意提示檢測

提示注入攻擊防禦

AI安全防護

文本分類

使用案例

AI安全

AI代理防護

為AI代理提供提示注入攻擊的防禦機制，防止惡意用戶操縱AI行為。

有效識別並阻止惡意提示，保護AI代理安全運行。

對話界面安全

應用於對話界面，檢測並過濾可能引發越獄或數據洩露的惡意輸入。

提升對話系統的安全性，減少敏感信息洩露風險。

🚀 穿山甲防護基礎版（PangolinGuard-Base）

大語言模型（LLM）應用在面臨提示注入和越獄攻擊時，面臨著嚴重的安全挑戰。這可能導致模型洩露敏感數據或偏離預期行為。現有的防護模型並非完全開源，且上下文窗口有限（例如，LlamaGuard 僅支持 512 個標記）。

穿山甲防護（Pangolin Guard） 是一款基於 ModernBERT（基礎版）的輕量級模型，能夠有效識別惡意提示（即提示注入攻擊）。

🤗 技術博客 | GitHub 倉庫

🚀 快速開始

推理示例

from transformers import pipeline

classifier = pipeline("text-classification", "dcarpintero/pangolin-guard-base")
text = "your input text"
output = classifier(text)

✨ 主要特性

為人工智能代理和對話界面添加一種自託管、低成本的防禦機制，以抵禦提示注入攻擊。

📚 詳細文檔

評估數據

該模型在專門針對提示安全和惡意輸入檢測的基準測試子集的未見數據上進行了評估，同時測試了過度防禦行為：

NotInject：通過包含豐富的常見於提示注入攻擊的觸發詞的良性輸入，來衡量提示防護模型的過度防禦情況。
BIPIA：通過間接提示注入攻擊評估隱私侵犯嘗試和邊界突破查詢。
Wildguard-Benign：代表合法但可能存在歧義的提示。
PINT：評估特別細微的提示注入、越獄攻擊以及可能被誤識別為惡意的良性提示。

image/png

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：5e-05
訓練批次大小（train_batch_size）：64
評估批次大小（eval_batch_size）：32
隨機種子（seed）：42
優化器（optimizer）：使用 OptimizerNames.ADAMW_TORCH_FUSED，β值為(0.9, 0.999)，ε值為 1e-08，無額外優化器參數
學習率調度器類型（lr_scheduler_type）：線性
訓練輪數（num_epochs）：2

訓練結果

訓練損失	輪數	步數	驗證損失	F1 分數	準確率
0.1622	0.1042	100	0.0755	0.9604	0.9741
0.0694	0.2083	200	0.0525	0.9735	0.9828
0.0552	0.3125	300	0.0857	0.9696	0.9810
0.0535	0.4167	400	0.0345	0.9825	0.9889
0.0371	0.5208	500	0.0343	0.9821	0.9887
0.0402	0.625	600	0.0344	0.9836	0.9894
0.037	0.7292	700	0.0282	0.9869	0.9917
0.0265	0.8333	800	0.0229	0.9895	0.9933
0.0285	0.9375	900	0.0240	0.9885	0.9926
0.0191	1.0417	1000	0.0220	0.9908	0.9941
0.0134	1.1458	1100	0.0228	0.9911	0.9943
0.0124	1.25	1200	0.0230	0.9898	0.9935
0.0136	1.3542	1300	0.0212	0.9910	0.9943
0.0088	1.4583	1400	0.0229	0.9911	0.9943
0.0115	1.5625	1500	0.0211	0.9922	0.9950
0.0058	1.6667	1600	0.0233	0.9920	0.9949
0.0119	1.7708	1700	0.0199	0.9916	0.9946
0.0072	1.875	1800	0.0206	0.9925	0.9952
0.007	1.9792	1900	0.0196	0.9923	0.9950

框架版本

Transformers 4.50.0
Pytorch 2.6.0+cu124
Datasets 3.4.1
Tokenizers 0.21.1

📄 許可證

本項目採用 Apache-2.0 許可證。

📦 模型信息

屬性	詳情
庫名稱	transformers
許可證	Apache-2.0
基礎模型	answerdotai/ModernBERT-base
標籤	AI 安全、防護措施、護欄
評估指標	F1、準確率
模型名稱	pangolin-guard-base