L

Llama Prompt Guard 2 22M

由 meta-llama 开发
Llama Prompt Guard 2 86M是一个用于检测提示注入和越狱攻击的文本分类模型,是Prompt Guard系列的第二代产品。
下载量 2,376
发布时间 : 4/28/2025

模型简介

该模型旨在帮助开发者检测和防止针对LLM的提示攻击,包括提示注入和越狱攻击。它能够识别恶意提示并保护LLM应用免受攻击。

模型特点

改进的性能
相比第一代模型,性能显著提升,减少了在分布外数据上的误报。
抗对抗攻击
改进了分词策略以减轻对抗性分词攻击,如空格操纵和碎片化分词。
多语言支持
能够检测多种语言的提示攻击,包括英语和非英语。
简化分类
专注于二元分类,将提示标记为'良性'或'恶意',简化了使用流程。

模型能力

恶意提示检测
多语言文本分类
提示攻击防护

使用案例

LLM安全
防止提示注入
检测并阻止试图操纵LLM执行非预期指令的恶意提示。
有效识别已知和未知的提示注入模式
防止越狱攻击
识别试图绕过LLM内置安全限制的恶意指令。
高准确率检测各种越狱技术
AI应用安全
API防护
在LLM API前端部署,过滤恶意请求。
减少API滥用和安全事件
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase