🚀 GenTel-Shield 檢測模型
GenTel-Shield 檢測模型是一個用於檢測惡意提示注入攻擊的模型。它通過構建訓練數據集、進行數據增強、使用預訓練模型進行訓練等步驟,能夠有效區分惡意和良性樣本,在多種攻擊場景下的檢測效果優於現有方法。
🚀 快速開始
GenTel-Shield 檢測模型的開發遵循五步流程。首先,通過從在線來源收集數據和專家貢獻構建訓練數據集。接著,對這些數據進行二值標註和清理以確保質量。然後,應用數據增強技術擴展數據集。之後,使用預訓練模型進行訓練。最後,訓練好的模型就能區分惡意和良性樣本。
以下是 GenTel-Shield 的工作流程:

✨ 主要特性
- 多源數據:訓練數據來自公共平臺的風險數據和 LLM 應用的既定數據集。
- 數據增強:通過語義變更和字符級擾動增強樣本多樣性,提高模型魯棒性。
- 高性能表現:在多種攻擊場景下,如越獄攻擊、目標劫持攻擊和提示洩露攻擊,檢測準確率和 F1 分數優於現有方法。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
訓練數據準備
數據收集
我們的訓練數據主要來自兩個來源。第一個來源包括公共平臺的風險數據,如 jailbreakchat.com 和 reddit.com 等網站,以及 LLM 應用的既定數據集,如 VMware Open-Instruct 數據集和 Chatbot Instruction Prompts 數據集。領域專家對這些示例進行了標註,將提示分為有害注入攻擊樣本和良性樣本兩類。
數據增強
在現實場景中,我們遇到過對抗樣本,如添加了無意義字符或刪除了單詞的樣本,這些樣本可以繞過防禦模型的檢測,可能導致危險行為。為了增強我們檢測模型的魯棒性,我們實施了數據增強,重點是對樣本進行語義變更和字符級擾動。我們採用了四種簡單而有效的字符擾動操作:同義詞替換、隨機插入、隨機交換和隨機刪除。我們使用大語言模型對數據進行重寫以進行語義增強,從而生成更多樣化的訓練樣本。
模型訓練細節
我們在提出的訓練文本對數據集上微調 GenTel-Shield 模型,從多語言 E5 文本嵌入模型進行初始化。訓練在配備一塊 NVIDIA GeForce RTX 4090D (24GB) GPU 的單臺機器上進行,使用的批量大小為 32。模型以 2e - 5 的學習率進行訓練,採用餘弦學習率調度器和 0.01 的權重衰減來減輕過擬合。為了優化內存使用,我們使用混合精度 (fp16) 訓練。此外,訓練過程包括 500 步的熱身階段,並應用最大範數為 1.0 的梯度裁剪。
評估
數據集
Gentel-Bench 為評估模型對各種注入攻擊的魯棒性提供了一個全面的框架。Gentel-Bench 的良性數據與大語言模型的典型使用情況密切相似,分為十個應用場景。惡意數據包含 84,812 個提示注入攻擊,分佈在 3 個主要類別和 28 個不同的安全場景中。
Gentel-Bench
我們在 Gentel-Bench 上評估了模型在檢測越獄、目標劫持和提示洩露攻擊方面的有效性。結果表明,我們的方法在大多數場景下優於現有方法,特別是在準確率和 F1 分數方面。
越獄攻擊場景的分類性能
方法 |
準確率 ↑ |
精確率 ↑ |
F1 分數 ↑ |
召回率 ↑ |
ProtectAI |
89.46 |
99.59 |
88.62 |
79.83 |
Hyperion |
94.70 |
94.21 |
94.88 |
95.57 |
Prompt Guard |
50.58 |
51.03 |
66.85 |
96.88 |
Lakera AI |
87.20 |
92.12 |
86.84 |
82.14 |
Deepset |
65.69 |
60.63 |
75.49 |
100 |
Fmops |
63.35 |
59.04 |
74.25 |
100 |
WhyLabs LangKit |
78.86 |
98.48 |
75.28 |
60.92 |
GenTel-Shield(我們的) |
97.63 |
98.04 |
97.69 |
97.34 |
目標劫持攻擊場景的分類性能
方法 |
準確率 ↑ |
精確率 ↑ |
F1 分數 ↑ |
召回率 ↑ |
ProtectAI |
94.25 |
99.79 |
93.95 |
88.76 |
Hyperion |
90.68 |
94.53 |
90.33 |
86.48 |
Prompt Guard |
50.90 |
50.61 |
67.21 |
100 |
Lakera AI |
74.63 |
88.59 |
69.33 |
56.95 |
Deepset |
63.40 |
57.90 |
73.34 |
100 |
Fmops |
61.03 |
56.36 |
72.09 |
100 |
WhyLabs LangKit |
68.14 |
97.53 |
54.35 |
37.67 |
GenTel-Shield(我們的) |
96.81 |
99.44 |
96.74 |
94.19 |
提示洩露攻擊場景的分類性能
方法 |
準確率 ↑ |
精確率 ↑ |
F1 分數 ↑ |
召回率 ↑ |
ProtectAI |
90.94 |
99.77 |
90.06 |
82.08 |
Hyperion |
90.85 |
95.01 |
90.41 |
86.23 |
Prompt Guard |
50.28 |
50.14 |
66.79 |
100 |
Lakera AI |
96.04 |
93.11 |
96.17 |
99.43 |
Deepset |
61.79 |
57.08 |
71.34 |
95.09 |
Fmops |
58.77 |
55.07 |
69.80 |
95.28 |
WhyLabs LangKit |
99.34 |
99.62 |
99.34 |
99.06 |
GenTel-Shield(我們的) |
97.92 |
99.42 |
97.89 |
96.42 |
細分場景

🔧 技術細節
- 模型類型:基於多語言 E5 文本嵌入模型進行微調。
- 訓練數據:來自公共平臺的風險數據和 LLM 應用的既定數據集。
- 訓練環境:單臺配備 NVIDIA GeForce RTX 4090D (24GB) GPU 的機器。
- 訓練參數:批量大小 32,學習率 2e - 5,餘弦學習率調度器,權重衰減 0.01,混合精度 (fp16) 訓練,500 步熱身階段,梯度裁剪最大範數 1.0。
屬性 |
詳情 |
模型類型 |
基於多語言 E5 文本嵌入模型微調 |
訓練數據 |
公共平臺風險數據和 LLM 應用既定數據集 |
📄 許可證
文檔未提及許可證信息,故跳過此章節。
📖 引用
Li, Rongchang, et al. "GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks" arXiv preprint arXiv:2409.19521 (2024).