模型概述
模型特點
模型能力
使用案例
🚀 Anzhc的YOLO模型庫
本項目提供了一系列基於YOLO的目標檢測和分割模型,這些模型在不同的特定任務上進行了訓練,如人臉分割、眼睛分割、胸部檢測等,為相關領域的應用提供了有力支持。
🚀 快速開始
本倉庫中的YOLO模型是使用我自己標註的數據集,或在朋友的幫助下標註的數據集進行訓練的(在相關情況下會適當提及他們)。使用開放數據集訓練的YOLO模型將有各自獨立的頁面。
如果你想請求一個模型,我接受委託定製,可在Discord上聯繫我 - anzhc。
✨ 主要特性
- 多樣化的檢測任務:涵蓋人臉分割、眼睛分割、胸部檢測、無人機檢測、動漫藝術評分等多個領域。
- 多版本模型:針對不同的任務和需求,提供了多個版本的模型,以滿足不同的性能和精度要求。
- 詳細的評估指標:每個模型都提供了mAP 50和mAP 50 - 95等評估指標,方便用戶瞭解模型性能。
📦 可用模型
人臉分割
通用模型
這一系列模型旨在準確檢測和分割人臉,在我自己標註的封閉數據集上進行訓練。
模型 | 目標 | mAP 50 | mAP 50 - 95 | 類別 | 數據集大小 | 訓練分辨率 |
---|---|---|---|---|---|---|
Anzhc Face -seg.pt | 人臉:插畫、真實人臉 | 數據丟失 | 數據丟失 | 2(男性、女性) | 數據丟失 | 640 |
Anzhc Face seg 640 v2 y8n.pt | 人臉:插畫、真實人臉 | 0.791(框) 0.765(掩碼) | 0.608(框) 0.445(掩碼) | 1(人臉) | ~500 | 640 |
Anzhc Face seg 768 v2 y8n.pt | 人臉:插畫、真實人臉 | 0.765(框) 0.748(掩碼) | 0.572(框) 0.431(掩碼) | 1(人臉) | ~500 | 768 |
Anzhc Face seg 768MS v2 y8n.pt | 人臉:插畫、真實人臉 | 0.807(框) 0.770(掩碼) | 0.601(框) 0.432(掩碼) | 1(人臉) | ~500 | 768(多尺度) |
Anzhc Face seg 1024 v2 y8n.pt | 人臉:插畫、真實人臉 | 0.768(框) 0.740(掩碼) | 0.557(框) 0.394(掩碼) | 1(人臉) | ~500 | 1024 |
Anzhc Face seg 640 v3 y11n.pt | 人臉:插畫 | 0.882(框) 0.871(掩碼) | 0.689(框) 0.570(掩碼) | 1(人臉) | ~660 | 640 |
更新說明:v3模型與人臉目標的匹配與v2略有不同,因此在較新的基準測試中,v2模型的統計數據與v3相比有所下降,尤其是在掩碼方面,而框的表現基本相同。v3及以上版本的數據集將目標設定為包含眉毛和完整的睫毛,以在不使用大稀釋參數的情況下獲得更好的細節處理體驗。
此外,從v3版本開始,我將使用YOLO11模型,因為它們似乎是對v8的直接升級。v12模型在訓練時需要多50%的時間,且沒有顯示出顯著的改進,即使安裝了Flash Attention,所以短期內我不太可能切換到v12。
基準測試在640px下進行。v2模型的差異僅在於目標分辨率,因此它們的性能差異較小。
真實人臉(區分性別)
該模型主要在真實照片上進行訓練,因此在處理插畫時性能較差,但可以區分性別,可用於男性/女性檢測。
模型 | 目標 | mAP 50 | mAP 50 - 95 | 類別 | 數據集大小 | 訓練分辨率 |
---|---|---|---|---|---|---|
Anzhcs ManFace v02 1024 y8n.pt | 人臉:真實人臉 | 0.883(框),0.883(掩碼) | 0.778(框),0.704(掩碼) | 1(人臉) | ~340 | 1024 |
Anzhcs WomanFace v05 1024 y8n.pt | 人臉:真實人臉 | 0.82(框),0.82(掩碼) | 0.713(框),0.659(掩碼) | 1(人臉) | ~600 | 1024 |
基準測試在640px下進行。
眼睛分割
該模型專為使用Adetailer擴展進行眼睛修復而訓練,專注於檢測動漫眼睛,特別是鞏膜區域,不包括睫毛和外眼區域。由於數據多次重新打亂(為未來版本擴展數據集),當前的基準測試可能不準確。
模型 | 目標 | mAP 50 | mAP 50 - 95 | 類別 | 數據集大小 | 訓練分辨率 |
---|---|---|---|---|---|---|
Anzhc Eyes -seg-hd.pt | 眼睛:插畫 | 0.925(框),0.868(掩碼) | 0.721(框),0.511(掩碼) | 1(眼睛) | ~500(約) | 1024 |
頭部 + 頭髮分割
這是一個早期的模型(我的第一批模型之一),用於檢測頭部和頭髮,可用於需要自動化處理的人像修復流程。
模型 | 目標 | mAP 50 | mAP 50 - 95 | 類別 | 數據集大小 | 訓練分辨率 |
---|---|---|---|---|---|---|
Anzhc HeadHair seg y8n.pt | 頭部:插畫、真實人臉 | 0.775(框),0.777(掩碼) | 0.576(框),0.552(掩碼) | 1(頭部) | ~3180 | 640 |
Anzhc HeadHair seg y8m.pt | 頭部:插畫、真實人臉 | 0.867(框),0.862(掩碼) | 0.674(框),0.626(掩碼) | 1(頭部) | ~3180 | 640 |
胸部相關模型
胸部分割
該模型用於分割胸部,僅在動漫圖像上進行訓練,因此在處理真實圖像時性能較弱,但仍有可能使用。
模型 | 目標 | mAP 50 | mAP 50 - 95 | 類別 | 數據集大小 | 訓練分辨率 |
---|---|---|---|---|---|---|
Anzhc Breasts Seg v1 1024n.pt | 胸部:插畫 | 0.742(框),0.73(掩碼) | 0.563(框),0.535(掩碼) | 1(胸部) | ~2000 | 1024 |
Anzhc Breasts Seg v1 1024s.pt | 胸部:插畫 | 0.768(框),0.763(掩碼) | 0.596(框),0.575(掩碼) | 1(胸部) | ~2000 | 1024 |
Anzhc Breasts Seg v1 1024m.pt | 胸部:插畫 | 0.782(框),0.775(掩碼) | 0.644(框),0.614(掩碼) | 1(胸部) | ~2000 | 1024 |
胸部大小檢測和分類
該模型用於檢測和分類胸部大小,可用於內容標註和審核。它使用自定義的尺度,將默認的Booru尺寸與rule34中較為自由的上限範圍相結合,進行簡化和標準化。
尺寸範圍是相對於身體比例確定的,而不是相對於場景,以避免在巨人症情況下產生混淆,並與場景分離。當然,這是主觀的,因為只有我一個人對數據進行標註。
模型 | 目標 | 類別 | 數據集大小 | 訓練分辨率 |
---|---|---|---|---|
Anzhcs Breast Size det cls v8 y11m.pt | 胸部:插畫和真實圖像 | 15(尺寸範圍) | ~16100 | 640 |
表格中未顯示mAP值,因為我認為這個模型需要更復雜的統計數據。
準確率相關說明:
- 準確比例 - 正確預測,與真實值完全匹配。
- +1、-1、±1比例 - 可接受預測的擴展範圍,分別為+1、-1和±1類。我建議將此統計數據作為主要準確率,因為±1範圍可能是可接受的誤差範圍。
- 錯誤分類比例 - 檢測正確,但分類超出±1誤差範圍。
- 漏檢比例 - 模型未檢測到,完全錯過。
- 誤檢比例 - 檢測到不存在的物體。在這個模型中,我懷疑誤檢比例也包括混淆率。在某些情況下,單個實例可能會被多次檢測,只接受其中一個。這可以被視為誤檢,但會包含在±1準確率中。實際誤檢比例應該低於報告值,經手動測試。
- GT實例 - 數據集中每個類別的實例數量。
基於以上說明,v8模型在檢測和分類方面提供了相當不錯的質量,除了11+類和0類(平胸)的極端情況,畢竟檢測不存在的物體並不容易。2類(中等)在這種情況下是最容易混淆的類別,準確率最低。從圖表中可以看出,它主要與1類混淆。其他有足夠數據的類別表現相當不錯,正常尺寸的準確率可達70%以上到80%中期,較大尺寸範圍的準確率可達90%以上。錯誤分類很少見,在這方面我對模型性能很滿意。平均錯誤分類率僅約為3%。不幸的是,漏檢率超過10%,但數據在0 - 2類上高度傾斜,這些類別很難檢測。假設將混淆檢測(同時檢測到2個類別)計入誤檢比例,v8的誤檢率非常合理。尺寸範圍平滑,在很多情況下兩個類別都可能適用。
最後一類(無法測量)用於分類在當前可見區域難以測量的異常值(例如,大部分不在畫面內),但模型會嘗試合理預測被遮擋和部分可見的實例。
所有比例都是相對於各自類別的GT實例數量計算的。
我將繼續使用這種基準測試方法來評估未來的檢測模型。
無人機檢測
該模型用於分割和檢測無人機。這與胸部模型的任務跨度很大,哈哈。我只是有了這個想法並實現了它。
強烈建議不要將其用於任何嚴肅的應用。
從v03版本開始,可將其視為v1版本,因為v03是我的內部迭代版本。
該模型對無人機型號非常敏感,在檢測某些類型的無人機時會有困難,尤其是近距離拍攝的情況。在雜亂的背景下性能較差。
模型 | 目標 | mAP 50 | mAP 50 - 95 | 類別 | 數據集大小 | 訓練分辨率 |
---|---|---|---|---|---|---|
Anzhcs Drones v03 1024 y11n.pt | 無人機 | 0.927(框) 0.888(掩碼) | 0.753(框) 0.508(掩碼) | 1(無人機) | ~3460 | 1024 |
動漫藝術評分
這是一個分類模型,旨在根據人類偏好分配百分位組,而不是直接分配“質量”標籤。
數據集由Danbooru上約100k張1 - 2年的圖像組成(未使用較新和較舊的圖像)。這將數據限制在有足夠瀏覽量和評分的圖像上,同時避免因年齡過大而過度曝光或曝光不足。
分數被用於劃分百分位組,每組10%。
製作這個模型的主要目的是找出分數與圖像質量之間是否存在顯著的可發現的相關性。以下是我的自定義圖表:
(由於字母排序,top100是第二類,但在邊緣接受圖表中已重新排序)
從這個圖表來看,考慮到總共有10個類別,我發現分數與圖表上半部分之間存在弱到中等的相關性,與中低部分存在負相關性,低部分相關性較弱,最低部分相關性中等。
這意味著什麼呢?
這意味著人們的評分與相關藝術特徵之間存在有意義的相關性,但與評分中立的藝術作品之間沒有有意義的相關性。負評分(top80 - 100)有中等相關性,這表明我們可以推斷出一些統一的負面特徵。top60類別非常有趣,因為它在提供的圖像之間沒有顯示出相關性,即使在top - 3準確率方面(在這種情況下,它的表現接近隨機選擇(10%))。這表明在未被注意到的藝術作品之間沒有特徵相關性,至少YOLO模型無法找到這種相關性。
我們可以合理地預測人類評分會排在圖表頂部的藝術作品,但無法預測處於中間水平的藝術作品,而在實際情況中,這部分藝術作品佔大多數。我們可以根據人類偏好合理地預測低質量的藝術作品,但遠非理想狀態。
邊緣接受圖表 - 一種top - 1準確率,但帶有類別接受邊緣(1、2和3(從 - 1開始,然後加 + 1,然後 - 2類)(它不是如名稱所示的±1 - 3))。這使我們能夠了解類別之間的相關性。如果相對於第一個圖表有顯著增加,這意味著第二好的預測被選為top - 1。我們還可以看到類別之間的擴展相關性趨勢。我們再次可以看到中間類別之間的相關性和準確率非常低,表明沒有有意義的特徵。這讓我覺得數據集中處於中間位置的藝術作品沒有理由處於這個位置,在理想情況下,它們應該排在更高或更低的位置。
top10 - 40類別相關性非常好,可用於人類偏好檢測。有趣的是:胸部越大 - 評分越高。我完全支持這個觀點。
一般來說,NSFW藝術作品的偏好評分會更高,哈哈,這真是個意想不到的結果,對吧?數據集由Danbooru/Safebooru(safebooru.donmai.us)各約50%組成,所以不是因為NSFW內容的過度代表。這也是為什麼你不應該使用評分進行質量標註,但如果你正在尋找一種與當前動漫模型保持高度兼容性的方法,那就隨意使用吧。底部評分(用於低質量/最差質量)之間的相關性較弱,所以在這方面要保守使用。
更大的模型和更多的數據可能會看到更多的相關性,但通過簡單運行更大的變體進行的快速測試並沒有讓我獲得更好的性能。
模型 | 目標 | Top - 1準確率/(帶邊緣(1/2/3)) | Top - 2準確率 | Top - 3準確率 | 類別 | 數據集大小 | 訓練分辨率 |
---|---|---|---|---|---|---|---|
Anzhcs Anime Score CLS v1.pt | 動漫插畫 | 0.336(0.467/0.645/0.679) | 0.566 | 0.696 | 10(top10到top100) | ~98000 | 224 |
此外,如果你需要,我將提供一個用於標記數據集的腳本:簡單實用腳本倉庫
支持
如果你想支持我,可以在ko - fi上捐贈: 捐贈鏈接
或者給我發送一些比特幣: bc1qpc5kmxrpqp6x8ykdu6976s4rvsz0utk22h80j9
/--正在建設中--/
📄 許可證
本項目採用AGPL - 3.0許可證。











