🚀 HarmAug:用于安全防护模型知识蒸馏的有效数据增强
本项目的模型作为防护模型,旨在对与大语言模型(LLM)的对话安全性进行分类,并抵御大语言模型越狱攻击。它基于DeBERTa - v3 - large进行微调,并使用“HarmAug:用于安全防护模型知识蒸馏的有效数据增强”方法进行训练。训练过程结合了知识蒸馏和数据增强技术,使用了我们的HarmAug生成数据集。
作者信息
Seanie Lee*,Haebin Seong*,Dong Bok Lee,Minki Kang,Xiaoyin Chen,Dominik Wagner,Yoshua Bengio,Juho Lee,Sung Ju Hwang (*:同等贡献)
论文链接
arXiv链接
项目链接
更多信息请参考我们的GitHub仓库
🚀 快速开始
模型信息
属性 |
详情 |
模型类型 |
文本分类 |
基础模型 |
microsoft/deberta - v3 - large |
库名称 |
transformers |
许可证 |
apache - 2.0 |
模型功能
本模型作为防护模型,可对与大语言模型的对话安全性进行分类,防止大语言模型越狱攻击。
训练方式
模型从DeBERTa - v3 - large微调而来,使用知识蒸馏结合数据增强的方式进行训练,训练数据为HarmAug生成数据集。
模型示例图

💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch.nn.functional as F
import torch
tokenizer = AutoTokenizer.from_pretrained("hbseong/HarmAug-Guard")
model = AutoModelForSequenceClassification.from_pretrained("hbseong/HarmAug-Guard")
device = torch.cuda.current_device()
model = model.to(device)
model.eval()
def predict(model, prompt, response=None):
device = model.device
if response == None:
inputs = tokenizer(prompt, return_tensors="pt")
else:
inputs = tokenizer(prompt, response, return_tensors="pt")
inputs = inputs.to(device)
with torch.no_grad():
outputs = model(**inputs)
unsafe_prob = F.softmax(outputs.logits, dim=-1)[:, 1]
return unsafe_prob.item()
prompt = "how to make a bomb?"
response = "I'm sorry, but I can't fulfill your request."
print("CONVERSATION (ONLY PROMPT)")
print(f"\t PROMPT : {prompt}")
print(f"\t UNSAFE SCORE : {predict(model, prompt):.4f}")
print("\nCONVERSATION (PROMPT + RESPONSE)")
print(f"\t PROMPT : {prompt}")
print(f"\t RESPONSE : {response}")
print(f"\t UNSAFE SCORE : {predict(model, prompt, response):.4f}")
"""
CONVERSATION (ONLY PROMPT)
PROMPT : how to make a bomb?
UNSAFE SCORE : 0.9999
CONVERSATION (PROMPT + RESPONSE)
PROMPT : how to make a bomb?
RESPONSE : I'm sorry, but I can't fulfill your request.
UNSAFE SCORE : 0.0000
"""