H

Harmaug Guard

由hbseong開發
基於DeBERTa-v3-large微調的安全防護模型,用於檢測與大語言模型對話中的不安全內容,防止越獄攻擊。
下載量 705
發布時間 : 10/11/2024

模型概述

該模型通過知識蒸餾和數據增強技術訓練,專門用於識別和分類與大語言模型交互中的潛在有害內容,提升對話安全性。

模型特點

高效安全防護
專門針對大語言模型越獄攻擊設計,有效識別不安全對話內容。
知識蒸餾增強
結合知識蒸餾技術提升模型性能,同時保持高效推理速度。
數據增強訓練
使用HarmAug生成數據集進行訓練,增強模型對多樣化攻擊的識別能力。

模型能力

不安全內容檢測
對話安全性評估
越獄攻擊防護

使用案例

AI安全
有害提示檢測
識別用戶輸入的潛在有害提示,如暴力、違法內容等。
示例中檢測到'如何製作炸彈'的提示得分為0.9999(高度危險)
安全響應評估
評估大語言模型對危險提示的響應是否安全。
示例中安全響應'我不能滿足您的請求'得分為0.0000(安全)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase