🚀 Virtusモデルカード
Virtusは、バイナリ画像分類用にファインチューニングされたVision Transformer (ViT) モデルです。特に、実画像とディープフェイク画像を区別するように訓練されています。190,000枚以上の画像からなるバランスの取れたデータセットで、約99.2%の精度を達成しています。
🚀 クイックスタート
from transformers import AutoFeatureExtractor, AutoModelForImageClassification
from PIL import Image
import torch
model = AutoModelForImageClassification.from_pretrained("agasta/virtus")
extractor = AutoFeatureExtractor.from_pretrained("agasta/virtus")
image = Image.open("path_to_image.jpg")
inputs = extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(model.config.id2label[predicted_class])
✨ 主な機能
Virtusは、入力画像が実画像かディープフェイク画像かを予測することができます。画像分析パイプラインにデプロイしたり、メディアの信憑性検出が必要なアプリケーションに統合することができます。また、より広範なディープフェイク検出システム、合成メディア検出の教育ツール、またはオンラインプラットフォームの事前スクリーニングシステムで使用することもできます。
📦 インストール
このモデルはHugging FaceのTransformersライブラリを使用しています。必要な依存関係をインストールするには、以下のコマンドを実行します。
pip install transformers datasets torch
📚 ドキュメント
モデルの詳細
モデルの説明
Virtusはfacebook/deit-base-distilled-patch16-224
をベースにしており、実画像と偽の顔画像の大規模データセットを使用してバイナリ分類タスクでファインチューニングされました。訓練プロセスには、クラスのバランス調整、データ拡張、および精度とF1スコアを使用した評価が含まれていました。
モデルのソース
用途
直接的な使用
このモデルは、入力画像が実画像かディープフェイク画像かを予測するために使用できます。画像分析パイプラインにデプロイしたり、メディアの信憑性検出が必要なアプリケーションに統合することができます。
下流の使用
Virtusは、より広範なディープフェイク検出システム、合成メディア検出の教育ツール、またはオンラインプラットフォームの事前スクリーニングシステムで使用することができます。
範囲外の使用
- 動画や音声のディープフェイク検出
- 実画像/偽画像のバイナリドメイン以外の一般的な物体分類タスク
バイアス、リスク、および制限
データセットはバランスが取れていますが、顔の特徴、照明条件、または人口統計学的なバイアスが残っている可能性があります。また、このモデルは非標準の入力サイズや顔が大きく隠れている場合には頑健性がありません。
推奨事項
- 訓練セットと同じ性質の顔画像にのみ使用してください。
- 人間の検証なしに重要なまたは高リスクの決定に使用しないでください。
- 定期的に更新されたデータでパフォーマンスを再評価してください。
訓練の詳細
訓練データ
データセットは、190,335枚の自前で収集した実画像とディープフェイクの顔画像で構成されており、RandomOverSamplerを使用して2つのクラスのバランスを取りました。データは60%の訓練データと40%のテストデータに分割され、クラスの層化が維持されました。
訓練手順
前処理
- 画像を224x224にリサイズ
- データ拡張: ランダムな回転、鮮明度調整、正規化
訓練ハイパーパラメータ
- エポック数: 2
- 学習率: 1e-6
- 訓練バッチサイズ: 32
- 評価バッチサイズ: 8
- 重み減衰: 0.02
- オプティマイザ: AdamW (Trainer APIを介して)
- 混合精度: 使用しない
評価
テストデータ
同じデータセットを60:40の比率で層化分割し、評価に使用しました。
評価指標
- 精度
- F1スコア (マクロ)
- 混同行列
- 分類レポート
結果
- 精度: 99.20%
- F1スコア (マクロ): 0.9920
環境への影響
- ハードウェアタイプ: NVIDIA Tesla V100 (Kaggle Notebook GPU)
- 使用時間: 約2.3時間
- クラウドプロバイダー: Kaggle
- コンピュートリージョン: 不明
- 排出された二酸化炭素量: MLCO2 Calculator で推定できます。
技術仕様
モデルアーキテクチャと目的
このモデルは、画像を実画像または偽画像に分類するというバイナリ目的で設計された蒸留Vision Transformer (DeiT) です。
コンピュートインフラストラクチャ
- ハードウェア: 1x NVIDIA Tesla V100 GPU
- ソフトウェア: PyTorch, Hugging Face Transformers, Datasets, Accelerate
引用
BibTeX:
@misc{virtus2025,
title={Virtus: Deepfake Detection using Vision Transformers},
author={Agasta},
year={2025},
howpublished={\url{https://huggingface.co/agasta/virtus}},
}
APA:
Agasta. (2025). Virtus: Deepfake Detection using Vision Transformers. Hugging Face. https://huggingface.co/agasta/virtus
モデルカードの問い合わせ
質問やフィードバックがある場合は、GitHub を介して連絡するか、モデルリポジトリ で問題を開いてください。また、rupam.golui@proton.me までメールを送ることもできます。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。