🚀 For Fake's Sake: 生成画像と合成画像を検出する一連のモデル
インターネット上では、最近、パウロ教皇がコートを着ている偽画像やドナルド・トランプの逮捕の偽画像に多くの人が騙されています。
この問題に対抗するため、MidjourneyやStable Diffusionなどの人気ツールで生成された画像を検出するモデルを提供します。
🚀 クイックスタート
以下のコードを使用して、モデルを始めることができます。
git lfs install
git clone https://huggingface.co/Sumsub/Sumsub-ffs-synthetic-1.0_sd_200 sumsub_synthetic_sd_200
from sumsub_synthetic_sd_200.pipeline import PreTrainedPipeline
from PIL import Image
pipe = PreTrainedPipeline("sumsub_synthetic_sd_200/")
img = Image.open("sumsub_synthetic_sd_200/images/2.jpg")
result = pipe(img)
print(result)
必要な前提条件をインストールする必要があります。
pip install -r requirements.txt
pip install "git+https://github.com/rwightman/pytorch-image-models"
pip install "git+https://github.com/huggingface/huggingface_hub"
✨ 主な機能
このモデルは、人気の画像生成ツールで生成された画像を検出するために開発されました。具体的には、MidjourneyやStable Diffusionで生成された画像を識別することができます。
📦 インストール
インストール手順は「クイックスタート」のセクションを参照してください。
💻 使用例
基本的な使用法
from sumsub_synthetic_sd_200.pipeline import PreTrainedPipeline
from PIL import Image
pipe = PreTrainedPipeline("sumsub_synthetic_sd_200/")
img = Image.open("sumsub_synthetic_sd_200/images/2.jpg")
result = pipe(img)
print(result)
📚 ドキュメント
モデルの詳細
モデルの説明
- 開発者: Sumsub AIチーム
- モデルの種類: 画像分類
- ライセンス: CC-By-SA-3.0
- タイプ: diffusions_200m(サイズ: 2億パラメータ, 説明: 異なるバージョンのStable Diffusion (1.4, 1.5, 2.1) を使用して作成された写真を検出するように設計されています)
- ファインチューニング元のモデル: convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_384
デモ
デモページはこちらです。
トレーニングの詳細
トレーニングデータ
モデルは以下のデータセットでトレーニングされました。
Stable Diffusionデータセット:
トレーニング手順
パフォーマンスメトリクスを向上させるために、回転、クロップ、Mixup、CutMixなどのデータ拡張を使用しました。各モデルは、バッチサイズ32で30エポックトレーニングされ、早期終了が適用されました。
評価
評価には以下のデータセットを使用しました。
Stable Diffusionデータセット:
リアルな画像:
メトリクス
制限事項
- 100%の正解率を達成することは不可能です。したがって、モデルの出力は、画像が人工的に生成された可能性がある(必ずしもそうではない)ことを示すものとしてのみ使用する必要があります。
- 当社のモデルは、非常に鮮やかで品質が高い現実世界の画像のクラスを正確に予測する際に困難に直面する可能性があります。このような場合、入力の複雑さにより、色の豊かさや細かい詳細が誤分類につながる可能性があります。これにより、モデルが真のクラスを示すものではない視覚的な側面に焦点を合わせる可能性があります。

🔧 技術詳細
このモデルは、特定のデータセットを使用してトレーニングされ、データ拡張技術を用いてパフォーマンスを向上させています。トレーニングには30エポックを費やし、早期終了を適用することで過学習を防いでいます。評価には複数のデータセットを使用し、正解率を指標としてモデルの性能を測定しています。
📄 ライセンス
このモデルはCC-By-SA-3.0ライセンスの下で提供されています。
引用
このモデルが役立った場合は、以下のように引用してください。
@misc{sumsubaiornot,
publisher = {Sumsub},
url = {https://huggingface.co/Sumsub/Sumsub-ffs-synthetic-1.0_sd_200},
year = {2023},
author = {Savelyev, Alexander and Toropov, Alexey and Goldman-Kalaydin, Pavel and Samarin, Alexey},
title = {For Fake's Sake: a set of models for detecting deepfakes, generated images and synthetic images}
}
参考文献
- Stöckl, Andreas. (2022). Evaluating a Synthetic Image Dataset Generated with Stable Diffusion. 10.48550/arXiv.2211.01777.
- Lin, Tsung-Yi & Maire, Michael & Belongie, Serge & Hays, James & Perona, Pietro & Ramanan, Deva & Dollár, Piotr & Zitnick, C.. (2014). Microsoft COCO: Common Objects in Context.
- Howard, Andrew & Zhu, Menglong & Chen, Bo & Kalenichenko, Dmitry & Wang, Weijun & Weyand, Tobias & Andreetto, Marco & Adam, Hartwig. (2017). MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications.
- Liu, Zhuang & Mao, Hanzi & Wu, Chao-Yuan & Feichtenhofer, Christoph & Darrell, Trevor & Xie, Saining. (2022). A ConvNet for the 2020s.
- Wang, Zijie & Montoya, Evan & Munechika, David & Yang, Haoyang & Hoover, Benjamin & Chau, Polo. (2022). DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models. 10.48550/arXiv.2210.14896.