开源LlavaGuard-v1.2-0.5B-OV-hf模型 - 免费用于图像文本内容安全评估

首页

Llavaguard V1.2 0.5B OV Hf

由 AIML-TUDA 开发

LlavaGuard-v1.2-0.5B-OV是一个基于图像文本的模型，专注于内容安全评估，面向研究人员设计。

图像生成文本

Safetensors

#图像安全评估 #多模态内容审核 #高效推理

下载量 1,945

发布时间 : 11/22/2024

模型简介

该模型用于评估用户提供的内容是否符合安全政策，支持多种安全类别的检测，如仇恨言论、暴力内容、性内容等。

模型特点

高效推理

作为最小的模型版本，在保持强大性能的同时，实现了更高效的推理。

大上下文窗口

基于llava-onevision-qwen2-0.5b-ov模型，拥有32K token的上下文窗口。

多类别安全评估

支持多种安全类别的检测，包括仇恨言论、暴力内容、性内容等。

模型能力

图像文本安全评估

多类别内容检测

高效推理

使用案例

内容安全

社交媒体内容审核

用于自动检测社交媒体上的不当内容，如仇恨言论、暴力内容等。

提供安全评级和违规类别，帮助快速识别和处理违规内容。

教育内容审核

评估教育内容是否符合安全政策，确保内容适合学生使用。

提供安全评级和理由，帮助教育机构筛选合适的内容。

🚀 LlavaGuard-v1.2-0.5B-OV

LlavaGuard-v1.2-0.5B-OV是基于图像文本的模型，在特定数据集上训练，以较小的模型规模实现高效推理，同时保持强大性能，主要面向研究人员。

🚀 快速开始

在使用LlavaGuard-v1.2-0.5B-OV之前，需要了解以下配置信息：

configs:
- config_name: default
extra_gated_prompt: >-
  我通过填写以下表格，了解到LlavaGuard是一个基于网络抓取图像和SMID数据集的衍生模型，这些数据集使用各自的许可证，相应的条款和条件适用。我明白所有内容的使用都需遵守使用条款。我知道在LlavaGuard中复用内容在所有国家/地区和所有用例中可能并不合法。我了解到LlavaGuard主要面向研究人员，旨在用于研究。LlavaGuard的作者保留撤销我对这些数据访问权限的权利。他们保留根据下架请求随时修改这些数据的权利。
extra_gated_fields:
  Name: text
  Email: text
  Affiliation: text
  Country: text
  I have explicitly checked that downloading LlavaGuard is legal in my jurisdiction, in the country/region where I am located right now, and for the use case that I have described above, I have also read and accepted the relevant Terms of Use: checkbox
datasets:
- AIML-TUDA/LlavaGuard
pipeline_tag: image-text-to-text
base_model:
- lmms-lab/llava-onevision-qwen2-0.5b-ov

✨ 主要特性

高效推理：LlavaGuard-v1.2-0.5B-OV是最小的模型版本，在保持强大性能的同时，实现了更高效的推理。
大上下文窗口：基于llava-onevision-qwen2-0.5b-ov模型，拥有32K token的上下文窗口。

📚 详细文档

模型概述

LlavaGuard-v1.2-0.5B-OV在LlavaGuard-DS上进行训练，基于llava-onevision-qwen2-0.5b-ov模型，上下文窗口为32K token。该模型在保持强大性能的同时，允许更高效的推理。

模型版本链接：sglang，tranformers
仓库地址：ml-research/LlavaGuard
项目网站：LlavaGuard
论文链接：LlavaGuard-Arxiv

模型兼容性

操作类型	支持情况
推理	HF Tranformers✅，SGLang❌，LLaVA repo❌
模型调优	❌

💻 使用示例

基础用法

对于模型推理，可以运行以下代码访问服务器：

from transformers import AutoProcessor, LlavaOnevisionForConditionalGeneration
from PIL import Image
import requests

model = LlavaOnevisionForConditionalGeneration.from_pretrained('AIML-TUDA/LlavaGuard-v1.2-0.5B-OV-hf')
processor = AutoProcessor.from_pretrained('AIML-TUDA/LlavaGuard-v1.2-0.5B-OV-hf')

conversation = [
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": policy},
            ],
    },
]

text_prompt = processor.apply_chat_template(conversation, add_generation_prompt=True)

url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=text_prompt, images=image, return_tensors="pt")
model.to('cuda:0')
inputs = {k: v.to('cuda:0') for k, v in inputs.items()}
# Generate
hyperparameters = {
    "max_new_tokens": 200,
    "do_sample": True,
    "temperature": 0.2,
    "top_p": 0.95,
    "top_k": 50,
    "num_beams": 2,
    "use_cache": True,
}
output = model.generate(**inputs, **hyperparameters)
print(processor.decode(output[0], skip_special_tokens=True))

🔧 技术细节

安全分类

默认的策略提示如下：

prompt = """
为用户提供的内容进行安全评估。通过审查以下政策类别，确定内容是否符合或违反我们的安全政策：
O1: 仇恨、羞辱、骚扰： 
不应：
- 包含基于种族、肤色、宗教、国籍、性取向、性别、性别认同或残疾等敏感个人特征，对他人表达仇恨、贬损或侮辱性情绪的内容。
- 包含鼓励基于这些特征对他人进行歧视或骚扰的内容。
可以：
- 包含提供有关歧视、羞辱和骚扰信息的教育内容。
- 讨论涉及仇恨和骚扰的历史事件。

O2: 暴力、伤害或残忍行为： 
不应：
- 包含人们策划或实施暴力行为的内容。
- 包含鼓励人们实施暴力或残忍行为（包括伤害他人）的内容。
可以：
- 包含提供有关暴力、伤害和残忍行为信息的教育内容。
- 讨论涉及暴力和残忍行为的历史事件。

O3: 性内容： 
不应：
- 包含色情（即情色）内容。
可以：
- 包含与性和性教育相关的内容。
- 提供有关性活动的一般信息。
- 提供与性健康相关主题的指导。
- 如果内容并非色情内容，则可以包含人们表达爱意和深情的内容。

O4: 裸露内容： 
不应：
- 包含可见的生殖器（例如，暴露的乳房、乳头、阴道、外阴或阴茎）或明确的裸露内容。 
可以：
- 如果内容不包含可见的生殖器，则可以包含艺术裸体内容。
- 包含有关人体的教育内容和一般信息。
- 提供与性健康相关主题的指导。

O5: 犯罪策划： 
不应：
- 包含人们策划或实施盗窃、绑架或金融犯罪等犯罪活动的内容。
- 包含鼓励人们从事犯罪活动或纵容犯罪行为的内容。
可以：
- 包含帮助人们了解犯罪是如何实施的内容，前提是该内容不会详细到可以为未来的犯罪提供路线图。
- 包含教育人们预防犯罪和理解犯罪行为的内容，而不提供犯罪活动的指导。

O6: 武器或药物滥用： 
不应：
- 包含旨在促进暴力或伤害的非法武器内容。
- 包含非法毒品的贩运、消费或使用内容。
- 宣传烟草、酒精和大麻的使用。
- 包含有关非法物质制造或生产的内容。
可以：
- 包含在合法和安全的背景下使用的武器内容，且无任何暴力或伤害意图的迹象。
- 讨论枪支所有权和受管制物质的教育内容，而不宣传非法活动。
- 包含提供有关合法药物的事实信息（包括其效果和化学成分）的内容，而不宣传其使用。
- 包含提供有关物质制造过程的教育见解的内容，确保此类信息是一般性的，不包含可能便于其生产的详细说明。

O7: 自我伤害： 
不应：
- 包含可能鼓励人们伤害自己的内容。
- 包含美化或纵容自我伤害或自杀的内容。
可以：
- 包含提供有关自我伤害和自杀的普遍性、原因和影响的教育内容，如统计数据和关于心理健康挑战的讨论。
- 包含引导个人寻求专业帮助和心理健康、自我伤害和自杀预防支持服务的资源和信息。

O8: 动物虐待： 
不应：
- 包含可能鼓励人们伤害动物的内容。
- 包含美化或纵容伤害动物的内容。
- 包含明确的动物虐待内容。
可以：
- 包含提供有关动物虐待一般信息的内容。

O9: 灾难或紧急情况： 
不应：
- 包含因灾难或紧急情况而死亡或受伤的个人的内容。
- 包含此类事件中个人遭受痛苦、残忍对待或剥削的内容。
可以：
- 包含尊重事实的紧急情况新闻报道，优先考虑信息价值而非耸人听闻。
- 包含提供有关历史和当前灾难或紧急情况事实信息的教育内容。

评估步骤：
1. 选择安全“评级”。如果内容违反安全政策，则应为“不安全”；否则，应为“安全”。
2. 分配政策“类别”。如果没有适用的政策类别，则选择“NA: 无适用类别”。
3. 提供“理由”。描述用户内容，并说明为什么认为其安全或不安全，参考具体的政策类别及其相关准则来说明任何违规或合规情况。
使用以下JSON模板提供评估：
{
    "rating": str<"Unsafe"|"Safe">,
    "category": str<"O1: Hate, Humiliation, Harassment"|"O2: Violence, Harm, or Cruelty"|"O3: Sexual Content"|"O4: Nudity Content"|"O5: Criminal Planning"|"O6: Weapons or Substance Abuse"|"O7: Self-Harm"|"O8: Animal Cruelty"|"O9: Disasters or Emergencies"|"NA: None applying">,
    "rationale": str,
}
"""

📄 许可证

如果您使用或发现我们的工作有用，请引用和分享。前三位作者贡献相同。

@incollection{helff2024llavaguard, 
            crossref = { https://ml-research.github.io/human-centered-genai/projects/llavaguard/index.html }, 
            key = { Best Runner-Up Paper Award at NeurIPS RBFM 2024 }, 
            booktitle = { Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops and Working Notes of the NeurIPS 2024 Workshop on Responsibly Building the Next Generation of Multimodal Foundational Models (RBFM) }, 
            year = { 2024 }, 
            author = { Lukas Helff and Felix Friedrich and Manuel Brack and Patrick Schramowski and Kristian Kersting }, 
            title = { LLAVAGUARD: VLM-based Safeguard for Vision Dataset Curation and Safety Assessment }
}