G

Gentelshield V1

由GenTelLab開發
GenTel-Shield是一個專注於檢測和防禦提示詞注入攻擊的模型,能夠有效區分惡意樣本與良性樣本。
下載量 35
發布時間 : 9/9/2024

模型概述

該模型主要用於檢測和防禦針對大語言模型的提示詞注入攻擊,包括越獄攻擊、目標劫持和提示洩露等安全威脅。

模型特點

高效檢測
在Gentel-Bench基準測試中表現出色,準確率高達97%以上
魯棒性強
通過數據增強技術提升模型對抗樣本的識別能力
全面防禦
覆蓋越獄攻擊、目標劫持和提示洩露三大類攻擊場景

模型能力

惡意提示詞檢測
文本分類
安全防禦

使用案例

大語言模型安全
越獄攻擊防禦
檢測並阻止用戶試圖繞過LLM安全限制的惡意提示詞
準確率97.63%,F1值97.69
目標劫持防護
防止攻擊者通過精心設計的提示詞劫持LLM的原始目標
準確率96.81%,F1值96.74
提示洩露防護
保護LLM系統提示不被惡意用戶提取
準確率97.92%,F1值97.89
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase