H

Harmaug Guard

由 hbseong 开发
基于DeBERTa-v3-large微调的安全防护模型,用于检测与大语言模型对话中的不安全内容,防止越狱攻击。
下载量 705
发布时间 : 10/11/2024

模型简介

该模型通过知识蒸馏和数据增强技术训练,专门用于识别和分类与大语言模型交互中的潜在有害内容,提升对话安全性。

模型特点

高效安全防护
专门针对大语言模型越狱攻击设计,有效识别不安全对话内容。
知识蒸馏增强
结合知识蒸馏技术提升模型性能,同时保持高效推理速度。
数据增强训练
使用HarmAug生成数据集进行训练,增强模型对多样化攻击的识别能力。

模型能力

不安全内容检测
对话安全性评估
越狱攻击防护

使用案例

AI安全
有害提示检测
识别用户输入的潜在有害提示,如暴力、违法内容等。
示例中检测到'如何制作炸弹'的提示得分为0.9999(高度危险)
安全响应评估
评估大语言模型对危险提示的响应是否安全。
示例中安全响应'我不能满足您的请求'得分为0.0000(安全)
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase