Sumsub-ffs-synthetic-1.0_sd_200开源模型 - 精准识别Stable Diffusion合成图像

首页

Sumsub Ffs Synthetic 1.0 Sd 200

由 Sumsub 开发

Sumsub开发的AI生成图像检测模型，专门识别Stable Diffusion等工具生成的合成图像

图像分类

PyTorch

#深度伪造检测 #StableDiffusion专用 #高精度鉴伪

下载量 21

发布时间 : 8/15/2023

模型简介

该模型用于检测由Midjourney、Stable Diffusion等AI工具生成的合成图像，帮助识别网络上的深度伪造内容

模型特点

高精度检测

针对Stable Diffusion不同版本(1.4/1.5/2.1)生成的图像具有高检测准确率

数据增强训练

采用旋转裁剪、Mixup和CutMix等数据增强技术提升模型性能

多数据集验证

在多个公开数据集上验证模型性能，确保泛化能力

模型能力

AI生成图像检测

深度伪造识别

合成图像分类

真假图像判别

使用案例

内容审核

社交媒体虚假内容识别

检测社交媒体上传播的AI生成虚假图片

可识别如'羽绒服教皇'等著名伪造图像

新闻验证

新闻图片真实性验证

验证新闻报道中使用图片的真实性

可检测如'五角大楼爆炸'等伪造新闻图片

🚀 为了打假：用于检测生成和合成图像的一组模型

近期，网络上许多人被教皇方济各穿外套或唐纳德·特朗普被捕的虚假图像所误导。为助力解决这一问题，我们提供了可检测由Midjourney和Stable Diffusion等流行工具生成的此类图像的检测器。

✨ 主要特性

提供针对Midjourney和Stable Diffusion等工具生成图像的检测器。
可有效识别虚假图像，助力解决网络虚假图像误导问题。

📦 安装指南

使用以下代码开始使用该模型：

git lfs install
git clone https://huggingface.co/Sumsub/Sumsub-ffs-synthetic-1.0_sd_200 sumsub_synthetic_sd_200

你可能需要安装以下先决条件：

pip install -r requirements.txt
pip install "git+https://github.com/rwightman/pytorch-image-models"
pip install "git+https://github.com/huggingface/huggingface_hub"

💻 使用示例

基础用法

from sumsub_synthetic_sd_200.pipeline import PreTrainedPipeline
from PIL import Image

pipe = PreTrainedPipeline("sumsub_synthetic_sd_200/")

img = Image.open("sumsub_synthetic_sd_200/images/2.jpg")

result = pipe(img)
print(result)

📚 详细文档

模型详情

模型描述

开发者：Sumsub AI团队
模型类型：图像分类
许可证：CC-By-SA-3.0
类型：diffusions_200m（大小：2亿参数，描述：旨在检测使用不同版本的Stable Diffusion（1.4、1.5、2.1）创建的照片）
微调自模型：convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_384

演示

演示页面可在此处找到。

训练详情

训练数据

这些模型在以下数据集上进行训练：

Stable Diffusion数据集：

真实照片：MS COCO。
AI照片：aiornot HuggingFace竞赛数据，Stable Diffusion Wordnet数据集。

训练过程

为提高性能指标，我们使用了旋转、裁剪、Mixup和CutMix等数据增强方法。每个模型使用早停法训练30个epoch，批量大小为32。

评估

在评估中，我们使用了以下数据集：

Stable Diffusion数据集：

DiffusionDB：一组由Stable Diffusion使用真实用户指定的提示和超参数生成的200万张图像。
Kaggel SD Faces：一组使用Stable Diffusion 1.4生成的4000张人脸图像。
Stable Diffusion Wordnet数据集：一组由Stable Diffusion生成的20万张图像。

真实图像：

MS COCO：一组12万张真实世界图像。

指标

模型	数据集	准确率
diffusions_200M	Kaggel SD Faces	0.989
diffusions_200M	DiffusionDB	0.926
diffusions_200M	Stable Diffusion Wordnet Dataset	0.946
diffusions_200M	MS COCO	0.941

局限性

需注意，无法达到100%的准确率。因此，模型输出仅应作为图像可能（但并非肯定）是人工生成的指示。
我们的模型在准确预测极其鲜艳且质量极高的真实世界示例的类别时可能会面临挑战。在这种情况下，丰富的颜色和精细的细节可能会因输入的复杂性而导致误分类。这可能会使模型关注不一定能指示真实类别的视觉方面。

🔧 技术细节

引用

如果您觉得此项目有用，请按以下方式引用：

@misc{sumsubaiornot, 
    publisher = {Sumsub},
    url       = {https://huggingface.co/Sumsub/Sumsub-ffs-synthetic-1.0_sd_200},
    year      = {2023},
    author    = {Savelyev, Alexander and Toropov, Alexey and Goldman-Kalaydin, Pavel and Samarin, Alexey},
    title     = {For Fake's Sake: a set of models for detecting deepfakes, generated images and synthetic images}
}

参考文献

Stöckl, Andreas. (2022). Evaluating a Synthetic Image Dataset Generated with Stable Diffusion. 10.48550/arXiv.2211.01777.
Lin, Tsung-Yi & Maire, Michael & Belongie, Serge & Hays, James & Perona, Pietro & Ramanan, Deva & Dollár, Piotr & Zitnick, C.. (2014). Microsoft COCO: Common Objects in Context.
Howard, Andrew & Zhu, Menglong & Chen, Bo & Kalenichenko, Dmitry & Wang, Weijun & Weyand, Tobias & Andreetto, Marco & Adam, Hartwig. (2017). MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications.
Liu, Zhuang & Mao, Hanzi & Wu, Chao-Yuan & Feichtenhofer, Christoph & Darrell, Trevor & Xie, Saining. (2022). A ConvNet for the 2020s.
Wang, Zijie & Montoya, Evan & Munechika, David & Yang, Haoyang & Hoover, Benjamin & Chau, Polo. (2022). DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models. 10.48550/arXiv.2210.14896.