🚀 不良解剖結構與真實感分類器模型卡片
這是一個經過微調的視覺變換器模型,用於對AI生成的圖片進行不良解剖結構和真實感分類。該模型目前是我Youtube系列的支持模型,歡迎在此基礎上進行拓展。
🚀 快速開始
微調
請參考此模型在支持的Github倉庫中的初始微調腳本:https://github.com/angusleung100/barc-finetuning-gh
使用模型進行分類
請參考Hugging Face文檔中關於圖像分類的示例:https://huggingface.co/docs/transformers/en/tasks/image_classification#inference
✨ 主要特性
- 檢測圖像是真實圖像還是高質量的AI生成圖像。
- 檢測AI生成圖像中的不良解剖結構,以觸發重新生成。
📚 詳細文檔
模型詳情
檢測逼真AI生成圖像中的不良解剖結構
並非所有圖像生成模型生成的圖像都具有良好的解剖結構。有些可能會生成典型的“畸形手部”,即手可能有超過5根手指。該模型的目標是檢測AI生成圖像中的此類解剖結構問題。
區分真實真實感與AI真實感
AI生成的圖像在實現真實感時往往存在問題,主要體現在皮膚和生成風格上。與社交媒體上的普通帖子相比,經過高清放大的AI生成圖像很容易通過一些特徵被識別出來,如皮膚有光澤或光線非常明亮。以下是一些示例:
模型描述
該模型在google/vit-base-patch16-224-in21k視覺變換器(ViT)的基礎上進行了微調。
使用範圍
預期用途
- 檢測圖像是真實圖像還是高質量的AI生成圖像。
- 檢測AI生成圖像中的不良解剖結構,以觸發重新生成。
非預期用途
偏差、風險和侷限性
此初始模型是在Stable Diffusion v1.5上生成的圖像上進行訓練的,使用的是pleasebankai的Beautiful Realistic Asians v6檢查點。該模型的數據集僅包含134張圖像,其中只有6張是不真實且解剖結構不良的圖像。(後續文檔更新時將在模型卡片中添加數據集詳細信息)
建議
建議擴展數據集,並使用更多不同類型的角色繼續訓練,以提高模型對不符合訓練圖像特徵的圖像的性能。
訓練詳情
訓練和測試數據
本部分應鏈接到數據集卡片,可能還會簡要介紹訓練數據的相關信息以及與數據預處理或額外過濾相關的文檔。
數據集圖像標籤標準
不良/良好解剖結構
- 角色身體部位有變形或額外肢體。
- 背景不過度摳圖(因為在後期處理中可以使用專業編輯軟件輕鬆去除或更改背景)。
真實與不真實
確定真實感的標準更具挑戰性。由於現在很多人喜歡使用濾鏡,因此很難確定一個好的真實感標準。以下是我為該模型確定的標準:
- 第一印象:我是否會仔細觀察併產生懷疑?還是我能立即判斷它不是真實的?
- 光線:對於業餘風格的圖像,更容易進行分類,因為可以先考慮其他標準。一些專業圖像看起來像是AI生成的,但實際上是經過大量編輯的。但我們也可以根據不自然的光線進行判斷。
- 皮膚和頭髮:如果皮膚和頭髮過於有光澤(如模型卡片開頭的圖像),或者放大後的圖像細節不足,或者放大後的圖像細節過多。
- 攝影風格:這可能會導致誤判,但如果拍攝的焦點看起來很奇怪或過度修飾,則可能是不真實的。
總體而言,分類是基於“直覺”。該模型的目標是能夠複製這種“直覺”,即對圖像的潛在感受。
兼容數據集的圖像
由於使用了默認的數據整理器,且圖像主要來自SD 1.5,我不確定不同模型的圖像和尺寸是否會影響訓練,即使我們後來使用的3張圖像在測試管道中沒有出現問題。
以下是一些默認圖像尺寸應該適用的模型列表:
- Stable Diffusion 1.5
- OpenDalle v1.1
- Flux 1
- Copilot上的Dall - E 3
數據集統計
每個標籤的圖像數量
=======================
真實但解剖結構不良: 6 (4.48%)
真實且解剖結構良好: 15 (11.19%)
不真實且解剖結構不良: 81 (60.45%)
不真實但解剖結構良好: 32 (23.88%)
圖像總數: 134
評估
結果
***** 訓練指標 *****
輪數 = 3.0
總浮點運算數 = 20135801GF
訓練損失 = 0.8453
訓練運行時間 = 0:00:42.83
每秒訓練樣本數 = 6.514
每秒訓練步數 = 0.841
***** 評估指標 *****
輪數 = 3.0
評估準確率 = 0.6341
評估F1分數 = 0.513
評估損失 = 0.8219
評估精確率 = 0.464
評估召回率 = 0.6341
評估運行時間 = 0:00:06.95
每秒評估樣本數 = 5.893
每秒評估步數 = 0.862
總結
初始數據集和微調後的準確率為64.41%,F1分數為51.3%,對於一個小型業餘數據集來說,這個結果較低但符合預期。
希望未來我有時間進一步擴展數據集並提高模型的性能。
下一步計劃:
- 增加更多不同類型的角色和姿勢。
- 增加更多不同的服裝風格和光線條件。
- 採用不同的相機風格。
- 納入不同模型生成的圖像 -> 目前主要由SD1.5 BRAV6和BRAV7檢查點生成的圖像主導。
模型檢查
你可以在初始微調筆記本中查看示例管道推理及其結果。
示例位於筆記本的底部。你可以使用ctr+f
搜索使用自定義輸入測試模型
以更快找到示例。
模型卡片聯繫方式
如果你有任何問題,請隨時聯繫我,也可以在Github上找到我: