L

Llama Prompt Guard 2 86M

meta-llamaによって開発
Llama Prompt Guard 2はMetaが提供するプロンプト攻撃検出モデルシリーズで、86Mパラメータのアップグレード版と22Mの軽量版を含み、大規模言語モデルアプリケーションにおけるプロンプトインジェクションやジェイルブレイク攻撃を検出します。
ダウンロード数 16.24k
リリース時間 : 4/28/2025

モデル概要

このモデルシリーズは大規模言語モデルアプリケーションを保護するために設計され、2種類のプロンプト攻撃(プロンプトインジェクションとジェイルブレイク攻撃)を検出します。86M版は8言語の検出をサポートし、22M軽量版は遅延を75%削減しました。

モデル特徴

性能向上
トレーニングデータを拡張し損失関数を最適化、誤検出率を低減、86M版のAUCは0.998に向上。
軽量版最適化
22M軽量版はDeBERTa-xsmallベースで遅延を75%削減、遅延に敏感なアプリケーションに適しています。
敵対的トークン化対策
スペース操作などの攻撃から防御するためトークン化戦略を最適化、モデルの堅牢性を向上。
二項分類の簡素化
直接「良性」または「悪意」とラベル付け、分類プロセスを簡素化。

モデル能力

プロンプトインジェクション検出
ジェイルブレイク攻撃検出
多言語テキスト分類
低遅延推論

使用事例

大規模言語モデルセキュリティ保護
プロンプトインジェクション防御
サードパーティデータを改ざんしてモデルに意図しない命令を実行させる攻撃を検出・遮断
86M版は攻撃防止率を81.2%に向上
ジェイルブレイク攻撃遮断
組み込みセキュリティ保護を回避する悪意のある命令を識別
22M版の攻撃防止率は78.4%
セキュリティ分析
悪用パターン識別
セキュリティチームが潜在的なモデル悪用パターンを識別するのを支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase