P

Prompt Guard 86M

由meta-llama開發
PromptGuard是一個用於檢測和防護LLM提示攻擊的文本分類模型,能夠識別惡意提示注入和越獄嘗試。
下載量 33.88k
發布時間 : 7/21/2024

模型概述

該模型專門設計用於保護基於LLM的應用程序免受提示攻擊,包括提示注入和越獄。它能夠檢測明確的惡意提示以及包含注入輸入的數據,幫助開發者降低提示攻擊風險。

模型特點

多標籤分類
能夠將輸入分類為良性、注入和越獄三類,幫助開發者精確識別不同類型的提示攻擊。
開源模型
作為開源模型發佈,開發者可以根據特定應用數據和用例對模型進行微調。
結合多種防護措施
建議將基於模型的保護與其他保護措施結合使用,以提供更全面的防護。

模型能力

惡意提示檢測
文本分類
提示注入識別
越獄嘗試識別

使用案例

LLM應用安全
第三方數據過濾
過濾攜帶注入或越獄風險的第三方數據,防止模型執行非預期指令。
顯著降低第三方數據中的提示攻擊風險
用戶對話過濾
過濾攜帶越獄風險的用戶對話,防止用戶繞過模型的安全防護。
保護模型免受惡意用戶攻擊
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase