Sumsub-ffs-synthetic-1.0_sd_200オープンソースモデル - Stable Diffusion合成画像を高精度に識別

ホーム

Sumsub Ffs Synthetic 1.0 Sd 200

Sumsubによって開発

Sumsubが開発したAI生成画像検出モデル、Stable Diffusionなどのツールで生成された合成画像を専門に識別

画像分類

PyTorch

#ディープフェイク検出 #StableDiffusion専用 #高精度偽物鑑定

ダウンロード数 21

リリース時間 : 8/15/2023

モデル概要

このモデルはMidjourney、Stable DiffusionなどのAIツールで生成された合成画像を検出し、インターネット上のディープフェイクコンテンツの識別を支援

モデル特徴

高精度検出

Stable Diffusionの異なるバージョン(1.4/1.5/2.1)で生成された画像に対して高い検出精度を発揮

データ拡張トレーニング

回転クロップ、Mixup、CutMixなどのデータ拡張技術を採用しモデル性能を向上

複数データセット検証

複数の公開データセットでモデル性能を検証し、汎化能力を確保

モデル能力

AI生成画像検出

ディープフェイク識別

合成画像分類

本物偽物判別

使用事例

コンテンツ審査

ソーシャルメディアの偽コンテンツ識別

ソーシャルメディアで拡散されるAI生成偽画像を検出

'ダウンジャケット教皇'などの有名な偽造画像を識別可能

ニュース検証

ニュース画像の信憑性検証

ニュース報道で使用される画像の真偽を検証

'ペンタゴン爆発'などの偽造ニュース画像を検出可能

🚀 For Fake's Sake: 生成画像と合成画像を検出する一連のモデル

インターネット上では、最近、パウロ教皇がコートを着ている偽画像やドナルド・トランプの逮捕の偽画像に多くの人が騙されています。この問題に対抗するため、MidjourneyやStable Diffusionなどの人気ツールで生成された画像を検出するモデルを提供します。

🚀 クイックスタート

以下のコードを使用して、モデルを始めることができます。

git lfs install
git clone https://huggingface.co/Sumsub/Sumsub-ffs-synthetic-1.0_sd_200 sumsub_synthetic_sd_200

from sumsub_synthetic_sd_200.pipeline import PreTrainedPipeline
from PIL import Image

pipe = PreTrainedPipeline("sumsub_synthetic_sd_200/")

img = Image.open("sumsub_synthetic_sd_200/images/2.jpg")

result = pipe(img)
print(result)

必要な前提条件をインストールする必要があります。

pip install -r requirements.txt
pip install "git+https://github.com/rwightman/pytorch-image-models"
pip install "git+https://github.com/huggingface/huggingface_hub"

✨ 主な機能

このモデルは、人気の画像生成ツールで生成された画像を検出するために開発されました。具体的には、MidjourneyやStable Diffusionで生成された画像を識別することができます。

📦 インストール

インストール手順は「クイックスタート」のセクションを参照してください。

💻 使用例

基本的な使用法

from sumsub_synthetic_sd_200.pipeline import PreTrainedPipeline
from PIL import Image

pipe = PreTrainedPipeline("sumsub_synthetic_sd_200/")

img = Image.open("sumsub_synthetic_sd_200/images/2.jpg")

result = pipe(img)
print(result)

📚 ドキュメント

モデルの詳細

モデルの説明

開発者: Sumsub AIチーム
モデルの種類: 画像分類
ライセンス: CC-By-SA-3.0
タイプ: diffusions_200m(サイズ: 2億パラメータ, 説明: 異なるバージョンのStable Diffusion (1.4, 1.5, 2.1) を使用して作成された写真を検出するように設計されています)
ファインチューニング元のモデル: convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_384

デモ

デモページはこちらです。

トレーニングの詳細

トレーニングデータ

モデルは以下のデータセットでトレーニングされました。

Stable Diffusionデータセット:

実写写真 : MS COCO。
AI写真 : aiornot HuggingFaceコンテストデータ、Stable Diffusion Wordnetデータセット。

トレーニング手順

パフォーマンスメトリクスを向上させるために、回転、クロップ、Mixup、CutMixなどのデータ拡張を使用しました。各モデルは、バッチサイズ32で30エポックトレーニングされ、早期終了が適用されました。

評価

評価には以下のデータセットを使用しました。

Stable Diffusionデータセット:

DiffusionDB: 実際のユーザーが指定したプロンプトとハイパーパラメータを使用してStable Diffusionで生成された200万枚の画像のセット。
Kaggel SD Faces: Stable Diffusion 1.4を使用して生成された4000枚の人物顔画像のセット。
Stable Diffusion Wordnetデータセット: Stable Diffusionで生成された20万枚の画像のセット。

リアルな画像:

MS COCO: 12万枚の現実世界の画像のセット。

メトリクス

モデル	データセット	正解率
diffusions_200M	Kaggel SD Faces	0.989
diffusions_200M	DiffusionDB	0.926
diffusions_200M	Stable Diffusion Wordnetデータセット	0.946
diffusions_200M	MS COCO	0.941

制限事項

100%の正解率を達成することは不可能です。したがって、モデルの出力は、画像が人工的に生成された可能性がある（必ずしもそうではない）ことを示すものとしてのみ使用する必要があります。
当社のモデルは、非常に鮮やかで品質が高い現実世界の画像のクラスを正確に予測する際に困難に直面する可能性があります。このような場合、入力の複雑さにより、色の豊かさや細かい詳細が誤分類につながる可能性があります。これにより、モデルが真のクラスを示すものではない視覚的な側面に焦点を合わせる可能性があります。

🔧 技術詳細

このモデルは、特定のデータセットを使用してトレーニングされ、データ拡張技術を用いてパフォーマンスを向上させています。トレーニングには30エポックを費やし、早期終了を適用することで過学習を防いでいます。評価には複数のデータセットを使用し、正解率を指標としてモデルの性能を測定しています。

📄 ライセンス

このモデルはCC-By-SA-3.0ライセンスの下で提供されています。

引用

このモデルが役立った場合は、以下のように引用してください。

@misc{sumsubaiornot, 
    publisher = {Sumsub},
    url       = {https://huggingface.co/Sumsub/Sumsub-ffs-synthetic-1.0_sd_200},
    year      = {2023},
    author    = {Savelyev, Alexander and Toropov, Alexey and Goldman-Kalaydin, Pavel and Samarin, Alexey},
    title     = {For Fake's Sake: a set of models for detecting deepfakes, generated images and synthetic images}
}

参考文献

Stöckl, Andreas. (2022). Evaluating a Synthetic Image Dataset Generated with Stable Diffusion. 10.48550/arXiv.2211.01777.
Lin, Tsung-Yi & Maire, Michael & Belongie, Serge & Hays, James & Perona, Pietro & Ramanan, Deva & Dollár, Piotr & Zitnick, C.. (2014). Microsoft COCO: Common Objects in Context.
Howard, Andrew & Zhu, Menglong & Chen, Bo & Kalenichenko, Dmitry & Wang, Weijun & Weyand, Tobias & Andreetto, Marco & Adam, Hartwig. (2017). MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications.
Liu, Zhuang & Mao, Hanzi & Wu, Chao-Yuan & Feichtenhofer, Christoph & Darrell, Trevor & Xie, Saining. (2022). A ConvNet for the 2020s.
Wang, Zijie & Montoya, Evan & Munechika, David & Yang, Haoyang & Hoover, Benjamin & Chau, Polo. (2022). DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models. 10.48550/arXiv.2210.14896.