L

Llama Prompt Guard 2 86M

由meta-llama開發
Llama Prompt Guard 2 是 Meta 推出的提示攻擊檢測模型系列,包含 86M 參數升級版和 22M 輕量版,用於檢測大語言模型應用中的提示注入和越獄攻擊。
下載量 16.24k
發布時間 : 4/28/2025

模型概述

該模型系列旨在為大語言模型應用提供防護,檢測兩類提示攻擊:提示注入和越獄攻擊。86M 版本支持 8 種語言檢測,22M 輕量版延遲降低 75%。

模型特點

性能提升
擴展訓練數據並優化損失函數,降低誤報率,86M 版 AUC 提升至 0.998。
輕量版優化
22M 輕量版基於 DeBERTa-xsmall,延遲降低 75%,適合對延遲敏感的應用場景。
抗對抗分詞
優化分詞策略防禦空格操縱等攻擊,提升模型魯棒性。
二元分類簡化
直接標註'良性'或'惡意',簡化分類流程。

模型能力

提示注入檢測
越獄攻擊檢測
多語言文本分類
低延遲推理

使用案例

大語言模型安全防護
提示注入防禦
檢測並攔截通過篡改第三方數據誘導模型執行非預期指令的攻擊
86M 版將攻擊預防率提升至 81.2%
越獄攻擊攔截
識別惡意指令繞過內置安全防護的行為
22M 版攻擊預防率達 78.4%
安全分析
濫用模式識別
輔助安全團隊識別潛在的模型濫用模式
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase