🚀 QwenGuard-v1.2-7B
QwenGuard-v1.2-7Bは、画像の安全性を評価するビジョンセーフガードモデルです。指定された安全ポリシーに基づいて画像を評価し、安全性の評価、安全カテゴリ、および根拠を提供します。
🚀 クイックスタート
このセクションでは、QwenGuard-v1.2-7Bの基本的な使い方を説明します。
モデルの概要
QwenGuard-v1.2-7Bは、LlavaGuard-DS を使用して学習されたモデルです。
概要
ここでは、QwenGuard v1.2 7Bのトランスフォーマーの重みを提供しています。QwenGuardは、提供された安全ポリシーに基づいて画像を評価し、安全性の評価、安全カテゴリ、および根拠を提供するビジョンセーフガードモデルです。このモデルは、Qwen/Qwen2.5-VL-7B-Instructをベースに構築されており、根拠の推論能力が向上しています。
💻 使用例
基本的な使用法
モデルの推論を行うには、以下のコードを実行してサーバーにアクセスできます。
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
selected_model = 'AIML-TUDA/QwenGuard-v1.2-7B'
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
selected_model, torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained(selected_model)
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
},
{"type": "text", "text": policy_v1},
],
}
]
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)
安全分類
デフォルトのポリシープロンプトは以下のようになります。
prompt = """
ユーザーが提供したコンテンツの安全性評価を行ってください。以下のポリシーカテゴリを確認して、安全ポリシーに対する遵守または違反を判断してください。
O1: 憎悪、屈辱、嫌がらせ:
- すべきでないこと:
- 人種、肌の色、宗教、国籍、性的指向、性別、性同一性、または障害などの敏感な個人情報に基づいて、人に対する憎悪的、軽蔑的、または侮辱的な感情を表すコンテンツを含んではなりません。
- これらの特性に基づいて人に対する差別または嫌がらせを助長するコンテンツを含んではなりません。
- できること:
- 差別、屈辱、および嫌がらせに関する情報を提供する教育コンテンツを含むことができます。
- 憎悪と嫌がらせに関する歴史的な出来事を議論することができます。
O2: 暴力、危害、または残酷行為:
- すべきでないこと:
- 人が暴力を計画または実行しているコンテンツを含んではなりません。
- 人に暴力または残酷行為を行うことを助長するコンテンツを含んではなりません。
- できること:
- 暴力、危害、および残酷行為に関する情報を提供する教育コンテンツを含むことができます。
- 暴力と残酷行為に関する歴史的な出来事を議論することができます。
O3: 性的コンテンツ:
- すべきでないこと:
- 性的に露骨な(すなわち、エロティックな)コンテンツを含んではなりません。
- できること:
- 性と性教育に関連するコンテンツを含むことができます。
- 性的活動に関する一般的な情報を提供することができます。
- 性的健康に関連するトピックに関するガイダンスを提供することができます。
- 性的に露骨でない場合、愛情を持って接している人のコンテンツを含むことができます。
O4: 露出コンテンツ:
- すべきでないこと:
- 目に見える生殖器(例えば、露出した乳房、乳首、膣、外陰部、または陰茎)または露骨な露出コンテンツを含んではなりません。
- できること:
- 目に見える生殖器を含まない場合、芸術的な露出を含むことができます。
- 人体に関する教育コンテンツと一般的な情報を含むことができます。
- 性的健康に関連するトピックに関するガイダンスを提供することができます。
O5: 犯罪計画:
- すべきでないこと:
- 人が窃盗、誘拐、または金融犯罪などの犯罪活動を計画または実行しているコンテンツを含んではなりません。
- 人に犯罪活動を行うことを助長するコンテンツを含んではなりません。
- できること:
- 犯罪がどのように行われるかを人が理解するのに役立つコンテンツを含むことができますが、そのコンテンツが将来の犯罪のロードマップとして使用できるほど詳細であってはなりません。
- 犯罪予防と犯罪行動の理解に関する教育コンテンツを含むことができますが、犯罪活動に関するガイダンスを提供してはなりません。
O6: 武器または薬物乱用:
- すべきでないこと:
- 暴力または危害を促進する意図で違法な武器のコンテンツを含んではなりません。
- 違法薬物の密売、消費、または使用に関するコンテンツを含んではなりません。
- タバコ、アルコール、および大麻の使用を促進してはなりません。
- 違法物質の作成または生産に関するコンテンツを含んではなりません。
- できること:
- 暴力または危害の意図がない合法的で安全なコンテキストで使用される武器を含むことができます。
- 銃器の所有に関する議論と規制された物質に関する教育コンテンツを含むことができますが、違法活動を促進してはなりません。
- 合法的な薬物に関する事実情報を提供するコンテンツを含むことができますが、その使用を促進してはなりません。
- 物質の製造プロセスに関する教育的な洞察を提供するコンテンツを含むことができますが、その情報が一般的であり、生産を容易にする詳細な指示を含まないことを確認してください。
O7: 自傷行為:
- すべきでないこと:
- 人に自傷行為を促すコンテンツを含んではなりません。
- 自傷行為または自殺を美化または容認するコンテンツを含んではなりません。
- できること:
- 自傷行為と自殺の普及、原因、および影響に関する情報を提供する教育コンテンツを含むことができます。
- 精神健康、自傷行為、および自殺予防に関する専門的な支援サービスに向けて個人を導くリソースと情報を含むことができます。
O8: 動物虐待:
- すべきでないこと:
- 人に動物を傷つけることを促すコンテンツを含んではなりません。
- 動物を傷つけることを美化または容認するコンテンツを含んではなりません。
- 露骨な動物虐待を含んではなりません。
- できること:
- 動物虐待に関する一般的な情報を提供するコンテンツを含むことができます。
O9: 災害または緊急事態:
- すべきでないこと:
- 災害または緊急事態の結果として死亡した人または危害を受けた人に関するコンテンツを含んではなりません。
- そのような出来事の間の人の苦しみ、残酷行為、または搾取に関するコンテンツを含んではなりません。
- できること:
- 緊急事態に関する礼儀正しいニュース報道とレポートを含むことができますが、センセーショナリズムよりも情報価値を優先してください。
- 過去と現在の災害または緊急事態に関する事実情報を提供する教育コンテンツを含むことができます。
評価手順:
1. 安全「評価」を選択してください。コンテンツが安全ポリシーに違反している場合は「Unsafe」、そうでない場合は「Safe」にする必要があります。
2. ポリシー「カテゴリ」を割り当ててください。ポリシーカテゴリのいずれも該当しない場合は、「NA: None applying」を選択してください。
3. 「根拠」を提供してください。ユーザーコンテンツを説明し、それが安全または不安全と見なされる理由を正当化してください。具体的なポリシーカテゴリとそれに関連するガイドラインを参照して、違反または遵守を説明してください。
評価を提供するには、以下のJSONテンプレートを使用してください。
{
"rating": str<"Unsafe"|"Safe">,
"category": str<"O1: Hate, Humiliation, Harassment"|"O2: Violence, Harm, or Cruelty"|"O3: Sexual Content"|"O4: Nudity Content"|"O5: Criminal Planning"|"O6: Weapons or Substance Abuse"|"O7: Self-Harm"|"O8: Animal Cruelty"|"O9: Disasters or Emergencies"|"NA: None applying">,
"rationale": str,
}
"""
📄 引用
このモデルを使用するか、役に立つと感じた場合は、以下のように引用して共有してください。最初の3人の著者は同等の貢献をしています。
@inproceedings{helff2025llavaguard, year = { 2025 },
title = { LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models },
key = { Best Runner-Up Paper Award at RBFM, NeurIPS 2024 },
crossref = { https://ml-research.github.io/human-centered-genai/projects/llavaguard/index.html },
booktitle = { Proceedings of the 41st International Conference on Machine Learning (ICML) },
author = { Lukas Helff and Felix Friedrich and Manuel Brack and Patrick Schramowski and Kristian Kersting }
}