P

Prompt Guard Finetuned

由skshreyas714開發
Prompt Guard是一個用於檢測提示攻擊的文本分類模型,能夠識別惡意提示注入和越獄行為。
下載量 35
發布時間 : 2/19/2025

模型概述

該模型基於mDeBERTa-v3-base微調,專門設計用於保護LLM應用程序免受提示攻擊,包括提示注入和越獄。

模型特點

多語言支持
能夠檢測多種語言中的提示攻擊,包括英語和非英語輸入。
高效檢測
小型模型(86M參數)適合在每次LLM調用前作為過濾器運行,無需專用GPU。
多標籤分類
能夠區分良性、注入和越獄三類提示,提供更精細的過濾控制。

模型能力

檢測提示注入
識別越獄嘗試
多語言文本分類
即時過濾惡意提示

使用案例

LLM安全防護
第三方內容過濾
過濾來自第三方的不受信任數據,防止潛在的提示注入攻擊。
可有效識別99.5%的注入攻擊(評估集)
用戶輸入監控
檢測用戶對話中的越獄嘗試,防止安全防護被繞過。
可識別97.5%的越獄攻擊(OOD數據集)
威脅檢測
新攻擊模式識別
作為威脅檢測工具,優先標記可疑輸入用於進一步分析。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase