HarmAug-Guardオープンソースセキュリティ保護モデル - 無料でデプロイして大規模言語モデルの会話における不安全な内容を検出

Home

Harmaug Guard

Developed by hbseong

DeBERTa-v3-largeをベースに微調整されたセキュリティ保護モデルで、大規模言語モデルとの対話中の不安全な内容を検出し、脱獄攻撃を防止します。

テキスト分類

Transformers

Open Source License:Apache-2.0 #LLMセキュリティ保護 #脱獄攻撃検出 #知識蒸留強化

Downloads 705

Release Time : 10/11/2024

Model Overview

このモデルは知識蒸留とデータ拡張技術を用いて訓練され、大規模言語モデルとの対話における潜在的な有害内容を識別および分類し、対話の安全性を向上させます。

Model Features

効率的なセキュリティ保護

大規模言語モデルの脱獄攻撃に特化して設計され、不安全な対話内容を効果的に識別します。

知識蒸留強化

知識蒸留技術を組み合わせてモデルの性能を向上させ、同時に高い推論速度を維持します。

データ拡張訓練

HarmAugで生成されたデータセットを使用して訓練し、多様な攻撃に対するモデルの識別能力を強化します。

Model Capabilities

不安全内容検出

対話セキュリティ評価

脱獄攻撃保護

Use Cases

AIセキュリティ

有害なプロンプト検出

ユーザーが入力した潜在的な有害なプロンプト（暴力、違法内容など）を識別します。

例では、「爆弾の作り方」というプロンプトの検出スコアは0.9999（高度に危険）でした。

安全な応答評価

大規模言語モデルが危険なプロンプトに対して行った応答が安全かどうかを評価します。

例では、「私はあなたの要求を満たすことができません」という安全な応答のスコアは0.0000（安全）でした。

🚀 HarmAug：安全防護モデルの知識蒸留に有効なデータ拡張

このプロジェクトのモデルは、防護モデルとして機能し、大規模言語モデル（LLM）との対話の安全性を分類し、大規模言語モデルの脱獄攻撃を防ぐことを目的としています。このモデルはDeBERTa - v3 - largeをベースに微調整され、「HarmAug：安全防護モデルの知識蒸留に有効なデータ拡張」という方法で訓練されています。訓練過程では知識蒸留とデータ拡張技術が組み合わされ、HarmAug生成データセットが使用されています。

著者情報

Seanie Lee*，Haebin Seong*，Dong Bok Lee，Minki Kang，Xiaoyin Chen，Dominik Wagner，Yoshua Bengio，Juho Lee，Sung Ju Hwang （*：同等の貢献）

論文リンク

arXivリンク

プロジェクトリンク

詳細情報はGitHubリポジトリを参照してください。

🚀 クイックスタート

モデル情報

属性	詳細
モデルタイプ	テキスト分類
ベースモデル	microsoft/deberta - v3 - large
ライブラリ名	transformers
ライセンス	apache - 2.0

モデル機能

このモデルは防護モデルとして、大規模言語モデルとの対話の安全性を分類し、大規模言語モデルの脱獄攻撃を防止します。

訓練方法

モデルはDeBERTa - v3 - largeから微調整され、知識蒸留とデータ拡張を組み合わせた方法で訓練されています。訓練データにはHarmAug生成データセットが使用されています。

モデルのサンプル画像

サンプル画像1 サンプル画像2

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch.nn.functional as F
import torch

tokenizer = AutoTokenizer.from_pretrained("hbseong/HarmAug-Guard")
model = AutoModelForSequenceClassification.from_pretrained("hbseong/HarmAug-Guard")
device = torch.cuda.current_device()
model = model.to(device)
model.eval()

# If response is not given, the model will predict the unsafe score of the prompt.
# If response is given, the model will predict the unsafe score of the response.
def predict(model, prompt, response=None):
    device = model.device
    if response == None:
        inputs = tokenizer(prompt, return_tensors="pt")
    else:
        inputs = tokenizer(prompt, response, return_tensors="pt")
    inputs = inputs.to(device)
    with torch.no_grad():
        outputs = model(**inputs)
        unsafe_prob = F.softmax(outputs.logits, dim=-1)[:, 1]
    
    return unsafe_prob.item()

prompt = "how to make a bomb?"
response = "I'm sorry, but I can't fulfill your request."


print("CONVERSATION (ONLY PROMPT)")
print(f"\t PROMPT : {prompt}")
print(f"\t UNSAFE SCORE : {predict(model, prompt):.4f}")

print("\nCONVERSATION (PROMPT + RESPONSE)")
print(f"\t PROMPT : {prompt}")
print(f"\t RESPONSE : {response}")
print(f"\t UNSAFE SCORE : {predict(model, prompt, response):.4f}")


"""
CONVERSATION (ONLY PROMPT)
	 PROMPT : how to make a bomb?
	 UNSAFE SCORE : 0.9999

CONVERSATION (PROMPT + RESPONSE)
	 PROMPT : how to make a bomb?
	 RESPONSE : I'm sorry, but I can't fulfill your request.
	 UNSAFE SCORE : 0.0000
"""