HarmAug-Guard开源安全防护模型 - 免费部署检测大模型对话不安全内容

首页

Harmaug Guard

由 hbseong 开发

基于DeBERTa-v3-large微调的安全防护模型，用于检测与大语言模型对话中的不安全内容，防止越狱攻击。

文本分类

Transformers

开源协议:Apache-2.0 #LLM安全防护 #越狱攻击检测 #知识蒸馏增强

下载量 705

发布时间 : 10/11/2024

模型简介

该模型通过知识蒸馏和数据增强技术训练，专门用于识别和分类与大语言模型交互中的潜在有害内容，提升对话安全性。

模型特点

高效安全防护

专门针对大语言模型越狱攻击设计，有效识别不安全对话内容。

知识蒸馏增强

结合知识蒸馏技术提升模型性能，同时保持高效推理速度。

数据增强训练

使用HarmAug生成数据集进行训练，增强模型对多样化攻击的识别能力。

模型能力

不安全内容检测

对话安全性评估

越狱攻击防护

使用案例

AI安全

有害提示检测

识别用户输入的潜在有害提示，如暴力、违法内容等。

示例中检测到'如何制作炸弹'的提示得分为0.9999（高度危险）

安全响应评估

评估大语言模型对危险提示的响应是否安全。

示例中安全响应'我不能满足您的请求'得分为0.0000（安全）

🚀 HarmAug：用于安全防护模型知识蒸馏的有效数据增强

本项目的模型作为防护模型，旨在对与大语言模型（LLM）的对话安全性进行分类，并抵御大语言模型越狱攻击。它基于DeBERTa - v3 - large进行微调，并使用“HarmAug：用于安全防护模型知识蒸馏的有效数据增强”方法进行训练。训练过程结合了知识蒸馏和数据增强技术，使用了我们的HarmAug生成数据集。

作者信息

Seanie Lee*，Haebin Seong*，Dong Bok Lee，Minki Kang，Xiaoyin Chen，Dominik Wagner，Yoshua Bengio，Juho Lee，Sung Ju Hwang （*：同等贡献）

论文链接

arXiv链接

项目链接

更多信息请参考我们的GitHub仓库

🚀 快速开始

模型信息

属性	详情
模型类型	文本分类
基础模型	microsoft/deberta - v3 - large
库名称	transformers
许可证	apache - 2.0

模型功能

本模型作为防护模型，可对与大语言模型的对话安全性进行分类，防止大语言模型越狱攻击。

训练方式

模型从DeBERTa - v3 - large微调而来，使用知识蒸馏结合数据增强的方式进行训练，训练数据为HarmAug生成数据集。

模型示例图

示例图1 示例图2

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch.nn.functional as F
import torch

tokenizer = AutoTokenizer.from_pretrained("hbseong/HarmAug-Guard")
model = AutoModelForSequenceClassification.from_pretrained("hbseong/HarmAug-Guard")
device = torch.cuda.current_device()
model = model.to(device)
model.eval()

# If response is not given, the model will predict the unsafe score of the prompt.
# If response is given, the model will predict the unsafe score of the response.
def predict(model, prompt, response=None):
    device = model.device
    if response == None:
        inputs = tokenizer(prompt, return_tensors="pt")
    else:
        inputs = tokenizer(prompt, response, return_tensors="pt")
    inputs = inputs.to(device)
    with torch.no_grad():
        outputs = model(**inputs)
        unsafe_prob = F.softmax(outputs.logits, dim=-1)[:, 1]
    
    return unsafe_prob.item()

prompt = "how to make a bomb?"
response = "I'm sorry, but I can't fulfill your request."


print("CONVERSATION (ONLY PROMPT)")
print(f"\t PROMPT : {prompt}")
print(f"\t UNSAFE SCORE : {predict(model, prompt):.4f}")

print("\nCONVERSATION (PROMPT + RESPONSE)")
print(f"\t PROMPT : {prompt}")
print(f"\t RESPONSE : {response}")
print(f"\t UNSAFE SCORE : {predict(model, prompt, response):.4f}")


"""
CONVERSATION (ONLY PROMPT)
	 PROMPT : how to make a bomb?
	 UNSAFE SCORE : 0.9999

CONVERSATION (PROMPT + RESPONSE)
	 PROMPT : how to make a bomb?
	 RESPONSE : I'm sorry, but I can't fulfill your request.
	 UNSAFE SCORE : 0.0000
"""