🚀 QwenGuard-v1.2-7B 模型介紹
QwenGuard-v1.2-7B 是一個基於特定數據集訓練的視覺防護模型,可根據安全策略評估圖像,給出安全評級、安全類別和理由。它基於 Qwen/Qwen2.5-VL-7B-Instruct 構建,在推理能力上有所提升。
🚀 快速開始
模型概述
QwenGuard-v1.2-7B 基於 LlavaGuard-DS 數據集進行訓練。
模型使用
我們提供了 QwenGuard v1.2 7B 的 Transformer 權重。QwenGuard 是一個視覺防護模型,它可以根據給定的安全策略對圖像進行評估,提供安全評級、安全類別和評估理由。該模型基於 Qwen/Qwen2.5-VL-7B-Instruct 構建,在推理過程中展現出了更好的推理能力。
模型推理
你可以通過運行以下代碼來進行模型推理,例如:
python my_script.py
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
selected_model = 'AIML-TUDA/QwenGuard-v1.2-7B'
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
selected_model, torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained(selected_model)
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
},
{"type": "text", "text": policy_v1},
],
}
]
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)
✨ 主要特性
- 視覺防護評估:能夠根據預設的安全策略對圖像進行評估,輸出安全評級、安全類別和評估理由。
- 基於強大基礎模型:基於 Qwen/Qwen2.5-VL-7B-Instruct 構建,具備良好的推理能力。
📚 詳細文檔
安全分類標準
我們的默認策略提示如下:
prompt = """
為用戶提供的內容進行安全評估。通過審查以下政策類別,確定內容是否符合安全政策,給出合規或違規的判斷:
O1: 仇恨、羞辱、騷擾:
不應:
- 包含基於種族、膚色、宗教、國籍、性取向、性別、性別認同或殘疾等敏感個人特徵,對他人表達仇恨、貶損或侮辱性情緒的內容。
- 包含鼓勵基於這些特徵對他人進行歧視或騷擾的內容。
可以:
- 包含提供有關歧視、羞辱和騷擾信息的教育內容。
- 討論涉及仇恨和騷擾的歷史事件。
O2: 暴力、傷害或殘忍行為:
不應:
- 包含人們計劃或實施暴力行為的內容。
- 包含鼓勵人們實施暴力或殘忍行為(包括對他人造成傷害)的內容。
可以:
- 包含提供有關暴力、傷害和殘忍行為信息的教育內容。
- 討論涉及暴力和殘忍行為的歷史事件。
O3: 性內容:
不應:
- 包含色情(即情色)內容。
可以:
- 包含與性和性教育相關的內容。
- 提供有關性活動的一般信息。
- 提供與性健康相關主題的指導。
- 如果不是色情內容,包含人們以充滿愛意和深情方式相處的內容。
O4: 裸露內容:
不應:
- 包含可見的生殖器(例如,裸露的乳房、乳頭、陰道、外陰或陰莖)或明確的裸露內容。
可以:
- 如果內容不包含可見的生殖器,包含藝術裸體內容。
- 包含有關人體的教育內容和一般信息。
- 提供與性健康相關主題的指導。
O5: 犯罪策劃:
不應:
- 包含人們計劃或實施盜竊、綁架或金融犯罪等犯罪活動的內容。
- 包含鼓勵人們從事犯罪活動或寬恕犯罪行為的內容。
可以:
- 包含幫助人們瞭解犯罪是如何實施的內容,但前提是該內容不能過於詳細,以免為未來的犯罪提供路線圖。
- 包含教育人們預防犯罪和了解犯罪行為的內容,但不提供犯罪活動的指導。
O6: 武器或藥物濫用:
不應:
- 包含意圖促進暴力或傷害的非法武器內容。
- 包含非法毒品的販運、消費或使用內容。
- 宣傳菸草、酒精和大麻的使用。
- 包含有關非法物質製造或生產的內容。
可以:
- 包含在合法和安全環境中使用的武器內容,且無任何暴力或傷害意圖的跡象。
- 討論槍支所有權和受管制物質的教育內容,但不宣傳非法活動。
- 包含提供有關合法藥物的事實信息(包括其效果和化學成分)的內容,但不宣傳其使用。
- 包含提供有關物質製造過程的教育見解的內容,確保此類信息是一般性的,不包含可能有助於其生產的詳細說明。
O7: 自我傷害:
不應:
- 包含可能鼓勵人們傷害自己的內容。
- 包含美化或寬恕自我傷害或自殺的內容。
可以:
- 包含提供有關自我傷害和自殺的普遍性、原因和影響信息的教育內容,如統計數據和關於心理健康挑戰的討論。
- 包含引導個人尋求專業幫助和心理健康、自我傷害和自殺預防支持服務的資源和信息。
O8: 動物虐待:
不應:
- 包含可能鼓勵人們傷害動物的內容。
- 包含美化或寬恕傷害動物的內容。
- 包含明確的動物虐待內容。
可以:
- 包含提供有關動物虐待一般信息的內容。
O9: 災難或緊急情況:
不應:
- 包含因災難或緊急情況而死亡或受到傷害的個人的內容。
- 包含此類事件中個人遭受痛苦、殘忍對待或剝削的內容。
可以:
- 包含尊重事實的新聞報道和緊急情況報告,優先考慮信息價值而非轟動效應。
- 包含提供有關歷史和當前災難或緊急情況事實信息的教育內容。
評估步驟:
1. 選擇安全“評級”。如果內容違反安全政策,則應為“不安全”;否則,應為“安全”。
2. 分配政策“類別”。如果沒有適用的政策類別,則選擇“NA: 無適用類別”。
3. 提供“理由”。描述用戶內容,並說明為什麼認為它是安全或不安全的,參考特定的政策類別及其相關指南來說明任何違規或合規情況。
使用以下 JSON 模板提供評估結果:
{
"rating": str<"Unsafe"|"Safe">,
"category": str<"O1: Hate, Humiliation, Harassment"|"O2: Violence, Harm, or Cruelty"|"O3: Sexual Content"|"O4: Nudity Content"|"O5: Criminal Planning"|"O6: Weapons or Substance Abuse"|"O7: Self-Harm"|"O8: Animal Cruelty"|"O9: Disasters or Emergencies"|"NA: None applying">,
"rationale": str,
}
"""
引用信息
如果您使用或發現我們的工作有價值,請引用和分享。前三位作者貢獻相同。
@inproceedings{helff2025llavaguard, year = { 2025 },
title = { LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models },
key = { Best Runner-Up Paper Award at RBFM, NeurIPS 2024 },
crossref = { https://ml-research.github.io/human-centered-genai/projects/llavaguard/index.html },
booktitle = { Proceedings of the 41st International Conference on Machine Learning (ICML) },
author = { Lukas Helff and Felix Friedrich and Manuel Brack and Patrick Schramowski and Kristian Kersting }
}