google-safesearch-mini-v2开源图像分类器 - 精准检测图像敏感内容

首页

Google Safesearch Mini V2

由 FredZhang7 开发

超高精度的多类图像分类器，可准确检测敏感内容

图像分类开源协议:Apache-2.0 #高精度敏感内容检测 #社交媒体内容审核 #轻量级安全过滤器

下载量 3,791

发布时间 : 1/26/2023

模型简介

基于InceptionResNetV2架构的图像分类模型，专门用于检测图像中的敏感内容（如血腥暴力或暗示性内容），适用于内容审核和数据过滤场景。

模型特点

超高精度

在训练和验证数据上达到97%的准确率

轻量化

相比稳定扩散安全检测器节省1.0GB内存和磁盘空间

多源训练数据

使用340万张来自Google图片、Reddit等平台的精选图像

迭代优化

通过概率筛选和额外数据集微调提升模型性能

模型能力

图像内容分类

敏感内容检测

安全内容过滤

使用案例

内容审核

社交媒体内容过滤

自动识别并过滤平台上的暴力或成人内容

减少人工审核工作量

数据预处理

训练数据清洗

在构建图像数据集前过滤不适宜内容

提高数据集质量

🚀 Google Safesearch Mini V2

Google Safesearch Mini V2 是一款超精确的多类别图像分类器，能够准确检测图像中的敏感内容。它可用于社交媒体审核，也能对数据集进行过滤。与稳定扩散安全检查器相比，使用该模型可节省 1GB 的内存和磁盘空间。

🚀 快速开始

Safesearch v3.1 已发布

✨ 主要特性

高精度检测：经过多轮训练和优化，在训练和验证数据上达到了 97% 的准确率，能准确识别图像中的敏感内容。
节省资源：相比稳定扩散安全检查器，可节省 1.0GB 的 RAM 和磁盘空间。
多数据源训练：使用来自 Google Images、Reddit、Kaggle 和 Imgur 等平台的约 340 万张图像进行训练，数据丰富多样。

📦 安装指南

安装 PyTorch 依赖

pip install --upgrade torchvision

💻 使用示例

基础用法

import torch, os
from torchvision import transforms
from PIL import Image
import urllib.request
import timm

image_path = "https://www.allaboutcats.ca/wp-content/uploads/sites/235/2022/03/shutterstock_320462102-2500-e1647917149997.jpg"
device = "cuda"

def preprocess_image(image_path):
  # Define image pre-processing transforms
    transform = transforms.Compose([
      transforms.Resize(299),
      transforms.CenterCrop(299),
      transforms.ToTensor(),
      transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
    ])
    if image_path.startswith('http://') or image_path.startswith('https://'):
        import requests
        from io import BytesIO
        response = requests.get(image_path)
        img = Image.open(BytesIO(response.content)).convert('RGB')
    else:
        img = Image.open(image_path).convert('RGB')
    img = transform(img).unsqueeze(0)
    img = img.cuda() if device.lower() == "cuda" else img.cpu()
    return img

def eval():
    model = timm.create_model("hf_hub:FredZhang7/google-safesearch-mini-v2", pretrained=True)
    model.to(device)
    img = preprocess_image(image_path)

    with torch.no_grad():
        out = model(img)
        _, predicted = torch.max(out.data, 1)
        classes = {
            0: 'nsfw_gore',
            1: 'nsfw_suggestive',
            2: 'safe'
        }
        print('\n\033[1;31m' + classes[predicted.item()] + '\033[0m' if predicted.item() != 2 else '\033[1;32m' + classes[predicted.item()] + '\033[0m\n')

if __name__ == '__main__':
    eval()

📚 详细文档

Google Safesearch Mini V2 在训练方法上与 V1 不同，它采用了 InceptionResNetV2 架构，并使用了约 340 万张从互联网随机获取的图像进行训练，其中部分图像通过数据增强生成。训练和验证数据来自 Google Images、Reddit、Kaggle 和 Imgur 等平台，并由相关公司、Google SafeSearch 和审核人员将其分类为安全或不适宜内容。

模型首先使用交叉熵损失训练 5 个周期，并在训练集和验证集上进行评估，识别预测概率低于 0.90 的图像，对整理后的数据集进行必要的修正后，再训练 8 个周期。之后，在各种可能难以分类的情况下测试模型，发现它会将棕色猫的皮毛误识为人类皮肤。为提高准确性，使用 Kaggle 上的 15 个额外数据集对模型进行一个周期的微调，最后结合训练和测试数据再训练一个周期，最终在训练和验证数据上达到了 97% 的准确率。

📄 许可证

本项目采用 Apache-2.0 许可证。

属性	详情
模型类型	图像分类器
训练数据	约 340 万张来自 Google Images、Reddit、Kaggle 和 Imgur 的图像，部分通过数据增强生成
评估指标	准确率
库名称	timm