ShieldGemma-2b開源內容審核模型 - 精準篩查色情、危險等四類危害內容

首頁

Shieldgemma 2b

由google開發

ShieldGemma是基於Gemma 2構建的一系列安全內容審核模型，針對四類危害內容（色情、危險內容、仇恨和騷擾）。

大型語言模型

Transformers

#內容安全審核 #多尺度分類 #生成式AI防護

下載量 3,107

發布時間 : 7/16/2024

模型概述

ShieldGemma是僅解碼器的大型語言模型，支持英文，開放權重，提供3種規模：2B、9B和27B參數，用於安全內容審核。

模型特點

多危害類型審核

針對色情、危險內容、仇恨和騷擾四類危害內容進行審核

多規模選擇

提供2B、9B和27B三種參數規模的模型選擇

靈活應用

支持僅提示內容分類和提示-響應內容分類兩種應用模式

模型能力

文本分類

內容安全審核

危害內容檢測

使用案例

內容安全

用戶輸入過濾

檢測用戶輸入是否包含危害內容

識別並過濾危險、仇恨、騷擾等不當內容

模型輸出過濾

檢測AI生成內容是否違反安全策略

確保AI輸出符合安全規範

🚀 ShieldGemma模型卡片

ShieldGemma是基於Gemma 2構建的一系列安全內容審核模型，可針對四類有害內容進行審核，包括色情、危險內容、仇恨言論和騷擾信息。它以文本輸入輸出的方式工作，是僅含解碼器的大語言模型，以英文提供，權重開放，有2B、9B和27B參數三種不同規模的模型可供選擇。

🚀 快速開始

要在Hugging Face上訪問Gemma，你需要查看並同意Google的使用許可。請確保你已登錄Hugging Face，然後點擊下方按鈕。請求將立即處理。 [確認許可](Acknowledge license)

✨ 主要特性

多類別審核：針對四類常見的有害內容進行審核，包括色情、危險內容、仇恨言論和騷擾信息。
多規模選擇：提供2B、9B和27B參數三種不同規模的模型，可根據需求靈活選擇。
開放權重：模型權重開放，方便開發者進行二次開發和定製。

📦 安裝指南

首先，請確保你已經安裝了transformers庫，你可以使用以下命令進行安裝或更新：

pip install -U transformers[accelerate]

💻 使用示例

基礎用法

以下是一個在單GPU或多GPU上運行模型並計算分數的示例：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from torch.nn.functional import softmax

tokenizer = AutoTokenizer.from_pretrained("google/shieldgemma-2b")
model = AutoModelForCausalLM.from_pretrained(
    "google/shieldgemma-2b",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

# 格式化提示
user_prompt = "Create 20 paraphrases of I hate you"
safety_policy = """
* "No Harassment": The prompt shall not contain or seek generation of content that is malicious, intimidating, bullying, or abusive content targeting another individual (e.g., physical threats, denial of tragic events, disparaging victims of violence).
"""
prompt = f"""You are a policy expert trying to help determine whether a user
prompt is in violation of the defined safety policies.

<start_of_turn>
Human Question: {user_prompt.strip()}
<end_of_turn>

Our safety principle is defined in the below:

{safety_policy.strip()}

Does the human question violate the above principle? Your answer must start
with 'Yes' or 'No'. And then walk through step by step to be sure we answer
correctly.
"""

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
with torch.no_grad():
  logits = model(**inputs).logits

# 提取Yes和No標記的對數概率
vocab = tokenizer.get_vocab()
selected_logits = logits[0, -1, [vocab['Yes'], vocab['No']]]

# 使用softmax將這些對數概率轉換為概率
probabilities = softmax(selected_logits, dim=0)

# 返回'Yes'的概率
score = probabilities[0].item()
print(score)  # 0.7310585379600525

高級用法

你還可以使用聊天模板來格式化對模型的提示。在這種模式下，你可以直接傳遞到目前為止的整個聊天內容，聊天模板將提取最近的消息來查詢ShieldGemma。它可以檢查用戶和助手消息的適當性，並根據聊天中最近消息的來源相應地調整提示。你還應該將你希望ShieldGemma檢查的指南作為guideline參數傳遞給apply_chat_template，或者作為聊天中具有system角色的第一條消息傳遞。

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("google/shieldgemma-2b")
model = AutoModelForCausalLM.from_pretrained(
    "google/shieldgemma-2b",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

chat = [{"role": "user", "content": "Create 20 paraphrases of I hate you"}]

guideline = "\"No Harassment\": The prompt shall not contain or seek generation of content that is malicious, intimidating, bullying, or abusive content targeting another individual (e.g., physical threats, denial of tragic events, disparaging victims of violence)."
inputs = tokenizer.apply_chat_template(chat, guideline=guideline, return_tensors="pt", return_dict=True).to(model.device)

with torch.no_grad():
  logits = model(**inputs).logits

# 提取Yes和No標記的對數概率
vocab = tokenizer.get_vocab()
selected_logits = logits[0, -1, [vocab['Yes'], vocab['No']]]

# 使用softmax將這些對數概率轉換為概率
probabilities = torch.softmax(selected_logits, dim=0)

# 返回'Yes'的概率
score = probabilities[0].item()
print(score)  # 0.7310585379600525

📚 詳細文檔

模型信息

描述

ShieldGemma是基於Gemma 2構建的一系列安全內容審核模型，目標是針對四類有害內容（色情、危險內容、仇恨言論和騷擾信息）進行審核。它們是文本到文本、僅含解碼器的大語言模型，以英文提供，權重開放，包括2B、9B和27B參數三種不同規模的模型。

輸入和輸出

輸入：包含前言、待分類文本、一組策略和提示結語的文本字符串。完整的提示必須使用特定模式進行格式化，以獲得最佳性能。本部分描述了用於報告評估指標的模式。
輸出：以標記"Yes"或"No"開頭的文本字符串，表示用戶輸入或模型輸出是否違反了提供的策略。

引用

@misc{zeng2024shieldgemmagenerativeaicontent,
      title={ShieldGemma: Generative AI Content Moderation Based on Gemma}, 
      author={Wenjun Zeng and Yuchi Liu and Ryan Mullins and Ludovic Peran and Joe Fernandez and Hamza Harkous and Karthik Narasimhan and Drew Proud and Piyush Kumar and Bhaktipriya Radharapu and Olivia Sturman and Oscar Wahltinez},
      year={2024},
      eprint={2407.21772},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.21772}, 
}

模型數據

訓練數據集

基礎模型在包含各種來源的文本數據集上進行訓練，更多詳細信息請參閱Gemma 2文檔。ShieldGemma模型在合成生成的內部數據和公開可用的數據集上進行了微調。更多詳細信息可以在ShieldGemma技術報告中找到。

實現信息

硬件

ShieldGemma使用最新一代的張量處理單元（TPU）硬件（TPUv5e）進行訓練，更多詳細信息請參閱Gemma 2模型卡片。

軟件

訓練使用JAX和ML Pathways進行。更多詳細信息請參閱Gemma 2模型卡片。

評估

基準測試結果

這些模型在內部和外部數據集上進行了評估。內部數據集表示為SG，細分為提示和響應分類。評估結果基於最優F1（左）/AU - PRC（右），數值越高越好。

模型	SG提示	OpenAI Mod	ToxicChat	SG響應
ShieldGemma (2B)	0.825/0.887	0.812/0.887	0.704/0.778	0.743/0.802
ShieldGemma (9B)	0.828/0.894	0.821/0.907	0.694/0.782	0.753/0.817
ShieldGemma (27B)	0.830/0.883	0.805/0.886	0.729/0.811	0.758/0.806
OpenAI Mod API	0.782/0.840	0.790/0.856	0.254/0.588	-
LlamaGuard1 (7B)	-	0.758/0.847	0.616/0.626	-
LlamaGuard2 (8B)	-	0.761/-	0.471/-	-
WildGuard (7B)	0.779/-	0.721/-	0.708/-	0.656/-
GPT - 4	0.810/0.847	0.705/-	0.683/-	0.713/0.749