P

Prompt Guard 86M

由 meta-llama 开发
PromptGuard是一个用于检测和防护LLM提示攻击的文本分类模型,能够识别恶意提示注入和越狱尝试。
下载量 33.88k
发布时间 : 7/21/2024

模型简介

该模型专门设计用于保护基于LLM的应用程序免受提示攻击,包括提示注入和越狱。它能够检测明确的恶意提示以及包含注入输入的数据,帮助开发者降低提示攻击风险。

模型特点

多标签分类
能够将输入分类为良性、注入和越狱三类,帮助开发者精确识别不同类型的提示攻击。
开源模型
作为开源模型发布,开发者可以根据特定应用数据和用例对模型进行微调。
结合多种防护措施
建议将基于模型的保护与其他保护措施结合使用,以提供更全面的防护。

模型能力

恶意提示检测
文本分类
提示注入识别
越狱尝试识别

使用案例

LLM应用安全
第三方数据过滤
过滤携带注入或越狱风险的第三方数据,防止模型执行非预期指令。
显著降低第三方数据中的提示攻击风险
用户对话过滤
过滤携带越狱风险的用户对话,防止用户绕过模型的安全防护。
保护模型免受恶意用户攻击
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase