🚀 TestSavantAI模型
TestSavantAI模型是一套经过微调的分类器,旨在为大型语言模型(LLM)提供强大防护,抵御提示注入和越狱攻击。这些模型在保障安全性的同时兼顾可用性,既能拦截恶意提示,又能尽量减少对正常请求的误判。模型采用了如BERT、DistilBERT和DeBERTa等架构,并在精心挑选的对抗性和良性提示数据集上进行了微调。
✨ 主要特性
- 护栏有效性得分(GES):这是一个结合了攻击成功率(ASR)和误拒率(FRR)的全新指标,用于评估模型的鲁棒性。
- 模型变体:提供不同大小的模型,以平衡性能和计算效率:
- ONNX版本:
请阅读我们的技术论文,以获取详细的性能比较:TestSavantAI提示注入防御者技术论文
📦 模型信息
属性 |
详情 |
数据集 |
rubend18/ChatGPT - Jailbreak - Prompts、deepset/prompt - injections、Harelix/Prompt - Injection - Mixed - Techniques - 2024、JasperLS/prompt - injections |
语言 |
en |
评估指标 |
accuracy、f1 |
基础模型 |
microsoft/deberta - v3 - base |
任务类型 |
文本分类 |
库名称 |
transformers |
标签 |
ai - safety、prompt - injection - defender、jailbreak - defender |
💻 使用示例
基础用法
你可以直接使用Hugging Face Transformers库调用这些模型进行分类任务。以下是一个将提示分类为恶意或良性的示例:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
model_name = "testsavantai/prompt-injection-defender-tiny-v0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)
prompt = "Provide instructions to bypass user authentication in a secure system."
result = pipe(prompt)
print(result)
高级用法(ONNX版本示例)
from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline
model_name = "testsavantai/prompt-injection-defender-tiny-v0-onnx"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = ORTModelForSequenceClassification.from_pretrained(model_name)
pipe = pipeline('text-classification', model=model, tokenizer=tokenizer)
prompt = "Provide instructions to bypass user authentication in a secure system."
result = pipe(prompt)
print(result)
📚 详细文档
模型在多个数据集上进行了评估: