Virtusオープンソース二分类モデル - 深度偽装画像を効率的に検出，精度は高達99.2%

ホーム

Virtus

agastaによって開発

ビジョントランスフォーマーを基にした二値分類モデルで、ディープフェイク画像の検出に特化しており、精度は99.2%

画像分類

Transformers

オープンソースライセンス:MIT #ディープフェイク検出 #高精度分類 #ビジョントランスフォーマー

ダウンロード数 970

リリース時間 : 4/14/2025

モデル概要

Virtusは、本物の画像とディープフェイク画像を区別するために微調整されたビジョントランスフォーマーモデルです。19万枚の画像を含むバランスの取れたデータセットでトレーニングされており、非常に高い検出精度を誇ります。

モデル特徴

高精度

テストセットで99.2%の精度を達成し、ディープフェイク画像を効果的に識別可能

バランスデータセット

19万枚の画像を含むバランスの取れたデータセットを使用してトレーニングされ、モデルの公平性を確保

データ拡張

ランダム回転、シャープネス調整など様々なデータ拡張技術を採用し、汎化能力を向上

蒸留アーキテクチャ

蒸留版ビジョントランスフォーマー(DeiT)アーキテクチャを基にし、効率性と高性能を兼ね備える

モデル能力

画像分類

ディープフェイク検出

顔の真正性分析

使用事例

セキュリティ検出

ソーシャルメディアコンテンツ審査

ソーシャルメディア上のディープフェイク画像を自動識別

精度99.2%

本人認証システム

生体認証システムの補助検証層として利用

教育研究

デジタルメディアリテラシーツール

学生が合成メディアを識別するのを支援

🚀 Virtusモデルカード

Virtusは、バイナリ画像分類用にファインチューニングされたVision Transformer (ViT) モデルです。特に、実画像とディープフェイク画像を区別するように訓練されています。190,000枚以上の画像からなるバランスの取れたデータセットで、約99.2%の精度を達成しています。

🚀 クイックスタート

from transformers import AutoFeatureExtractor, AutoModelForImageClassification
from PIL import Image
import torch

model = AutoModelForImageClassification.from_pretrained("agasta/virtus")
extractor = AutoFeatureExtractor.from_pretrained("agasta/virtus")

image = Image.open("path_to_image.jpg")
inputs = extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(model.config.id2label[predicted_class])

✨ 主な機能

Virtusは、入力画像が実画像かディープフェイク画像かを予測することができます。画像分析パイプラインにデプロイしたり、メディアの信憑性検出が必要なアプリケーションに統合することができます。また、より広範なディープフェイク検出システム、合成メディア検出の教育ツール、またはオンラインプラットフォームの事前スクリーニングシステムで使用することもできます。

📦 インストール

このモデルはHugging FaceのTransformersライブラリを使用しています。必要な依存関係をインストールするには、以下のコマンドを実行します。

pip install transformers datasets torch

📚 ドキュメント

モデルの詳細

モデルの説明

Virtusはfacebook/deit-base-distilled-patch16-224をベースにしており、実画像と偽の顔画像の大規模データセットを使用してバイナリ分類タスクでファインチューニングされました。訓練プロセスには、クラスのバランス調整、データ拡張、および精度とF1スコアを使用した評価が含まれていました。

属性	详情
開発者	Agasta
資金提供元	なし
共有者	Agasta
モデルタイプ	画像分類用のVision Transformer (ViT)
言語	該当なし（ビジョンモデル）
ライセンス	MIT
ファインチューニング元のモデル	facebook/deit-base-distilled-patch16-224

モデルのソース

リポジトリ: https://huggingface.co/agasta/virtus

用途

直接的な使用

このモデルは、入力画像が実画像かディープフェイク画像かを予測するために使用できます。画像分析パイプラインにデプロイしたり、メディアの信憑性検出が必要なアプリケーションに統合することができます。

下流の使用

Virtusは、より広範なディープフェイク検出システム、合成メディア検出の教育ツール、またはオンラインプラットフォームの事前スクリーニングシステムで使用することができます。

範囲外の使用

動画や音声のディープフェイク検出
実画像/偽画像のバイナリドメイン以外の一般的な物体分類タスク

バイアス、リスク、および制限

データセットはバランスが取れていますが、顔の特徴、照明条件、または人口統計学的なバイアスが残っている可能性があります。また、このモデルは非標準の入力サイズや顔が大きく隠れている場合には頑健性がありません。

推奨事項

訓練セットと同じ性質の顔画像にのみ使用してください。
人間の検証なしに重要なまたは高リスクの決定に使用しないでください。
定期的に更新されたデータでパフォーマンスを再評価してください。

訓練の詳細

訓練データ

データセットは、190,335枚の自前で収集した実画像とディープフェイクの顔画像で構成されており、RandomOverSamplerを使用して2つのクラスのバランスを取りました。データは60%の訓練データと40%のテストデータに分割され、クラスの層化が維持されました。

訓練手順

前処理

画像を224x224にリサイズ
データ拡張: ランダムな回転、鮮明度調整、正規化

訓練ハイパーパラメータ

エポック数: 2
学習率: 1e-6
訓練バッチサイズ: 32
評価バッチサイズ: 8
重み減衰: 0.02
オプティマイザ: AdamW (Trainer APIを介して)
混合精度: 使用しない

評価

テストデータ

同じデータセットを60:40の比率で層化分割し、評価に使用しました。

評価指標

精度
F1スコア (マクロ)
混同行列
分類レポート

結果

精度: 99.20%
F1スコア (マクロ): 0.9920

環境への影響

ハードウェアタイプ: NVIDIA Tesla V100 (Kaggle Notebook GPU)
使用時間: 約2.3時間
クラウドプロバイダー: Kaggle
コンピュートリージョン: 不明
排出された二酸化炭素量: MLCO2 Calculator で推定できます。

技術仕様

モデルアーキテクチャと目的

このモデルは、画像を実画像または偽画像に分類するというバイナリ目的で設計された蒸留Vision Transformer (DeiT) です。

コンピュートインフラストラクチャ

ハードウェア: 1x NVIDIA Tesla V100 GPU
ソフトウェア: PyTorch, Hugging Face Transformers, Datasets, Accelerate

引用

BibTeX:

@misc{virtus2025,
  title={Virtus: Deepfake Detection using Vision Transformers},
  author={Agasta},
  year={2025},
  howpublished={\url{https://huggingface.co/agasta/virtus}},
}

APA: Agasta. (2025). Virtus: Deepfake Detection using Vision Transformers. Hugging Face. https://huggingface.co/agasta/virtus