Gentelshield-v1開源模型 - 免費部署有效檢測防禦提示詞注入攻擊

首頁

Gentelshield V1

由GenTelLab開發

GenTel-Shield是一個專注於檢測和防禦提示詞注入攻擊的模型，能夠有效區分惡意樣本與良性樣本。

大型語言模型

Transformers

#提示詞注入防禦 #多攻擊類型檢測 #高準確率檢測

下載量 35

發布時間 : 9/9/2024

模型概述

該模型主要用於檢測和防禦針對大語言模型的提示詞注入攻擊，包括越獄攻擊、目標劫持和提示洩露等安全威脅。

模型特點

高效檢測

在Gentel-Bench基準測試中表現出色，準確率高達97%以上

魯棒性強

通過數據增強技術提升模型對抗樣本的識別能力

全面防禦

覆蓋越獄攻擊、目標劫持和提示洩露三大類攻擊場景

模型能力

惡意提示詞檢測

文本分類

安全防禦

使用案例

大語言模型安全

越獄攻擊防禦

檢測並阻止用戶試圖繞過LLM安全限制的惡意提示詞

準確率97.63%，F1值97.69

目標劫持防護

防止攻擊者通過精心設計的提示詞劫持LLM的原始目標

準確率96.81%，F1值96.74

提示洩露防護

保護LLM系統提示不被惡意用戶提取

準確率97.92%，F1值97.89

🚀 GenTel-Shield 檢測模型

GenTel-Shield 檢測模型是一個用於檢測惡意提示注入攻擊的模型。它通過構建訓練數據集、進行數據增強、使用預訓練模型進行訓練等步驟，能夠有效區分惡意和良性樣本，在多種攻擊場景下的檢測效果優於現有方法。

🚀 快速開始

GenTel-Shield 檢測模型的開發遵循五步流程。首先，通過從在線來源收集數據和專家貢獻構建訓練數據集。接著，對這些數據進行二值標註和清理以確保質量。然後，應用數據增強技術擴展數據集。之後，使用預訓練模型進行訓練。最後，訓練好的模型就能區分惡意和良性樣本。

以下是 GenTel-Shield 的工作流程：

gentel-shield

✨ 主要特性

多源數據：訓練數據來自公共平臺的風險數據和 LLM 應用的既定數據集。
數據增強：通過語義變更和字符級擾動增強樣本多樣性，提高模型魯棒性。
高性能表現：在多種攻擊場景下，如越獄攻擊、目標劫持攻擊和提示洩露攻擊，檢測準確率和 F1 分數優於現有方法。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

訓練數據準備

數據收集

我們的訓練數據主要來自兩個來源。第一個來源包括公共平臺的風險數據，如 jailbreakchat.com 和 reddit.com 等網站，以及 LLM 應用的既定數據集，如 VMware Open-Instruct 數據集和 Chatbot Instruction Prompts 數據集。領域專家對這些示例進行了標註，將提示分為有害注入攻擊樣本和良性樣本兩類。

數據增強

在現實場景中，我們遇到過對抗樣本，如添加了無意義字符或刪除了單詞的樣本，這些樣本可以繞過防禦模型的檢測，可能導致危險行為。為了增強我們檢測模型的魯棒性，我們實施了數據增強，重點是對樣本進行語義變更和字符級擾動。我們採用了四種簡單而有效的字符擾動操作：同義詞替換、隨機插入、隨機交換和隨機刪除。我們使用大語言模型對數據進行重寫以進行語義增強，從而生成更多樣化的訓練樣本。

模型訓練細節

我們在提出的訓練文本對數據集上微調 GenTel-Shield 模型，從多語言 E5 文本嵌入模型進行初始化。訓練在配備一塊 NVIDIA GeForce RTX 4090D (24GB) GPU 的單臺機器上進行，使用的批量大小為 32。模型以 2e - 5 的學習率進行訓練，採用餘弦學習率調度器和 0.01 的權重衰減來減輕過擬合。為了優化內存使用，我們使用混合精度 (fp16) 訓練。此外，訓練過程包括 500 步的熱身階段，並應用最大範數為 1.0 的梯度裁剪。

評估

數據集

Gentel-Bench 為評估模型對各種注入攻擊的魯棒性提供了一個全面的框架。Gentel-Bench 的良性數據與大語言模型的典型使用情況密切相似，分為十個應用場景。惡意數據包含 84,812 個提示注入攻擊，分佈在 3 個主要類別和 28 個不同的安全場景中。

Gentel-Bench

我們在 Gentel-Bench 上評估了模型在檢測越獄、目標劫持和提示洩露攻擊方面的有效性。結果表明，我們的方法在大多數場景下優於現有方法，特別是在準確率和 F1 分數方面。

越獄攻擊場景的分類性能

方法	準確率 ↑	精確率 ↑	F1 分數 ↑	召回率 ↑
ProtectAI	89.46	99.59	88.62	79.83
Hyperion	94.70	94.21	94.88	95.57
Prompt Guard	50.58	51.03	66.85	96.88
Lakera AI	87.20	92.12	86.84	82.14
Deepset	65.69	60.63	75.49	100
Fmops	63.35	59.04	74.25	100
WhyLabs LangKit	78.86	98.48	75.28	60.92
GenTel-Shield(我們的)	97.63	98.04	97.69	97.34

目標劫持攻擊場景的分類性能

方法	準確率 ↑	精確率 ↑	F1 分數 ↑	召回率 ↑
ProtectAI	94.25	99.79	93.95	88.76
Hyperion	90.68	94.53	90.33	86.48
Prompt Guard	50.90	50.61	67.21	100
Lakera AI	74.63	88.59	69.33	56.95
Deepset	63.40	57.90	73.34	100
Fmops	61.03	56.36	72.09	100
WhyLabs LangKit	68.14	97.53	54.35	37.67
GenTel-Shield(我們的)	96.81	99.44	96.74	94.19

提示洩露攻擊場景的分類性能

方法	準確率 ↑	精確率 ↑	F1 分數 ↑	召回率 ↑
ProtectAI	90.94	99.77	90.06	82.08
Hyperion	90.85	95.01	90.41	86.23
Prompt Guard	50.28	50.14	66.79	100
Lakera AI	96.04	93.11	96.17	99.43
Deepset	61.79	57.08	71.34	95.09
Fmops	58.77	55.07	69.80	95.28
WhyLabs LangKit	99.34	99.62	99.34	99.06
GenTel-Shield(我們的)	97.92	99.42	97.89	96.42

細分場景

fig_3

🔧 技術細節

模型類型：基於多語言 E5 文本嵌入模型進行微調。
訓練數據：來自公共平臺的風險數據和 LLM 應用的既定數據集。
訓練環境：單臺配備 NVIDIA GeForce RTX 4090D (24GB) GPU 的機器。
訓練參數：批量大小 32，學習率 2e - 5，餘弦學習率調度器，權重衰減 0.01，混合精度 (fp16) 訓練，500 步熱身階段，梯度裁剪最大範數 1.0。

屬性	詳情
模型類型	基於多語言 E5 文本嵌入模型微調
訓練數據	公共平臺風險數據和 LLM 應用既定數據集

📄 許可證

文檔未提及許可證信息，故跳過此章節。

📖 引用

Li, Rongchang, et al. "GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks" arXiv preprint arXiv:2409.19521 (2024).