🚀 バッドアナトミー・リアリズム分類器
このモデルは、AI生成画像のアナトミーの不備とリアリズムを分類するために微調整されたVision Transformerモデルです。現在、このモデルは私のYoutubeシリーズのサポートモデルとして使用されています。自由に拡張してご利用ください。
🚀 クイックスタート
このモデルは、AI生成画像のアナトミーの不備やリアリズムを検出するために設計されています。以下に、モデルの使用方法や詳細情報を説明します。
✨ 主な機能
- AI生成画像が本物か、高度なAI生成画像かを検出する
- AI生成画像のアナトミーの不備を検出し、再生成をトリガーする
📦 インストール
微調整
このモデルの初期微調整スクリプトについては、以下のGitHubリポジトリを参照してください。
https://github.com/angusleung100/barc-finetuning-gh
分類での使用
画像分類に関するHugging Faceのドキュメント例を参照してください。
https://huggingface.co/docs/transformers/en/tasks/image_classification#inference
📚 ドキュメント
モデルの詳細
現実的なAI生成画像におけるアナトミーの不備の検出
すべての画像生成モデルが良好なアナトミーの画像を生成するわけではありません。一部のモデルは、典型的な「悪い手」(指が5本以上ある手)を生成することがあります。このモデルの目標は、AI生成画像におけるこのようなアナトミーの問題を検出することです。
真のリアリズムとAIリアリズムの判断
AI生成画像は、リアリズムを達成しようとする際に、肌や生成スタイルに問題がある傾向があります。通常のソーシャルメディアの投稿と比較すると、高解像度に拡大されたAI生成画像は、光沢のある肌や非常に明るい照明などの特徴によって容易に識別できます。以下はそのような例です。
モデルの説明
このモデルは、google/vit-base-patch16-224-in21kのVision Transformer (ViT)を微調整したものです。
使用方法
想定される使用方法
- 画像が本物か、高度なAI生成画像かを検出する
- AI生成画像のアナトミーの不備を検出し、再生成をトリガーする
想定外の使用方法
バイアス、リスク、制限事項
この初期モデルは、pleasebankaiによるBeautiful Realistic Asians v6チェックポイントでStable Diffusion v1.5を使用して生成された画像で訓練されました。
このモデルのデータセットは134枚の画像のみで、非現実的でアナトミーの悪い画像は6枚のみです。(データセットの詳細情報は、後のドキュメント更新でモデルカードに追加されます)
推奨事項
訓練に使用された画像の特性に適合しない画像に対するパフォーマンスを向上させるために、データセットを拡張し、より多様なキャラクターでの訓練を続けることをお勧めします。
訓練詳細
訓練とテストデータ
データセット画像のラベル基準
悪い/良いアナトミー
- キャラクターの身体部分が変形しているか、余分な手足がある場合
- 背景が過度にマットでないこと(専門的な編集ソフトで事後処理で削除または変更できるため)
現実的 vs. 非現実的
リアリズムを判断する基準は、面白いものです。多くの人が現在フィルターを使用するようになっているため、現実性の良い基準を決定するのは実際にはかなり難しいです。このモデルでは、以下のように絞り込みました。
- 一瞥の反応 - もっと詳しく見て懐疑的に感じるか、即座に本物ではないとわかるか
- 照明 - アマチュアスタイルの画像を分類するのは容易です。最初に次の基準に進むことができます。一部のプロの画像はAI生成のように見えますが、実際には高度に編集されています。しかし、不自然な照明に基づいて判断することもできます。
- 肌と髪 - 肌や髪が過度に光沢がある場合(モデルカードの冒頭の画像のように)、または拡大された画像に十分な詳細がない場合、または拡大された画像に過度に詳細がある場合
- 写真スタイル - これは誤検出や見逃しの原因になる可能性がありますが、ショットの焦点が奇妙であったり、非常にエアブラシ加工されているように見える場合、非現実的である可能性があります。
全体的に、分類は「直感」に基づいています。このモデルには、「直感」や画像に対する潜在的な感覚を再現することも目標としています。
データセットに適合する画像
デフォルトのデータコレーターが使用され、画像は主にSD 1.5からのものです。異なるモデルの画像やサイズが訓練を中断するかどうかは、後で使用した3枚の画像のテストパイプラインに問題がなかったとしても、完全には確定していません。
以下は、デフォルトの画像サイズが機能すると思われるモデルのリストです。
- Stable Diffusion 1.5
- OpenDalle v1.1
- Flux 1
- CopilotのDall - E 3
データセット統計
各ラベルの画像数
=======================
現実的でアナトミーの悪い画像: 6 (4.48%)
現実的でアナトミーの良い画像: 15 (11.19%)
非現実的でアナトミーの悪い画像: 81 (60.45%)
非現実的でアナトミーの良い画像: 32 (23.88%)
画像の総数: 134
評価
結果
***** 訓練メトリクス *****
epoch = 3.0
total_flos = 20135801GF
train_loss = 0.8453
train_runtime = 0:00:42.83
train_samples_per_second = 6.514
train_steps_per_second = 0.841
***** 評価メトリクス *****
epoch = 3.0
eval_accuracy = 0.6341
eval_f1 = 0.513
eval_loss = 0.8219
eval_precision = 0.464
eval_recall = 0.6341
eval_runtime = 0:00:06.95
eval_samples_per_second = 5.893
eval_steps_per_second = 0.862
要約
初期のデータセットと微調整により、精度は64.41%、F1スコアは51.3%となりました。これは低いですが、小規模なアマチュアデータセットでは予想される結果です。
将来的には、データセットを拡張し、モデルのパフォーマンスを向上させる時間を確保できればと思います。
次のステップは以下の通りです。
- より多様なキャラクターとポーズを用意する
- より多様な服装スタイルと照明を用意する
- 異なるカメラスタイルを用意する
- 異なるモデルからの異なるモデル世代を用意する -> 現在はSD1.5 BRAV6とBRAV7チェックポイントが支配的です
モデル検証
初期微調整ノートブックで、例のパイプライン推論とその結果を確認できます。
例はノートブックの下部にあります。ctr+f
を使用してTest Model With Custom Inputs
を検索すると、すぐにたどり着けます。
モデルカードの問い合わせ
質問がある場合や、GitHubで私を見つけたい場合は、自由に連絡してください。