G

Gentelshield V1

GenTelLabによって開発
GenTel-Shieldはプロンプトインジェクション攻撃の検出と防御に特化したモデルで、悪意のあるサンプルと良性サンプルを効果的に区別できます。
ダウンロード数 35
リリース時間 : 9/9/2024

モデル概要

このモデルは主に大規模言語モデルに対するプロンプトインジェクション攻撃(ジェイルブレイク攻撃、目標ハイジャック、プロンプト漏洩などのセキュリティ脅威)の検出と防御に使用されます。

モデル特徴

高効率検出
Gentel-Benchベンチマークテストで優れた性能を発揮し、精度は97%以上
高い頑健性
データ拡張技術により、モデルの敵対的サンプル識別能力を向上
包括的な防御
ジェイルブレイク攻撃、目標ハイジャック、プロンプト漏洩の3大攻撃シナリオをカバー

モデル能力

悪意のあるプロンプト検出
テキスト分類
セキュリティ防御

使用事例

大規模言語モデルセキュリティ
ジェイルブレイク攻撃防御
ユーザーがLLMのセキュリティ制限を回避しようとする悪意のあるプロンプトを検出して阻止
精度97.63%、F1値97.69
目標ハイジャック防止
攻撃者が巧妙に設計したプロンプトでLLMの本来の目標をハイジャックするのを防止
精度96.81%、F1値96.74
プロンプト漏洩防止
悪意のあるユーザーによるLLMシステムプロンプトの抽出を保護
精度97.92%、F1値97.89
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase