Anzhcs_YOLOs开源模型 - 免费实现艺术图像目标检测与分割

首页

Anzhcs YOLOs

由 Anzhc 开发

基于YOLOv8和YOLOv11架构训练的一系列目标检测与分割模型，专注于艺术图像处理

图像分割

PyTorch

其他#动漫面部分割 #高精度掩膜检测 #多尺度训练

下载量 48.07k

发布时间 : 2/7/2024

模型简介

该系列模型包含面部、眼部、头部发丝及胸部等部位的分割与检测模型，主要针对动漫和真实人像处理优化

模型特点

多分辨率支持

提供640px到1024px多种分辨率的模型版本，适应不同应用场景

动漫与真实图像双适配

部分模型同时支持动漫和真实人像的处理

细分部位检测

提供面部、眼部、头发、胸部等细分部位的专用检测模型

YOLOv11架构优化

新版模型采用YOLOv11架构，相比v8有明显性能提升

模型能力

面部检测与分割

眼部区域精确分割

头部与发丝分割

胸部轮廓检测

性别分类(部分模型)

高分辨率图像处理

使用案例

图像修复与增强

自动面部修复

配合Adetailer等扩展实现自动面部修复

提升修复精度，减少误判

眼部细节增强

专门针对眼球巩膜区域的精确检测

避免睫毛和外围区域的误判

内容分析

肖像特征分析

分析面部、头发等特征

可用于风格分析或内容分类

🚀 Anzhc的YOLO模型库

本项目提供了一系列基于YOLO的目标检测和分割模型，这些模型在不同的特定任务上进行了训练，如人脸分割、眼睛分割、胸部检测等，为相关领域的应用提供了有力支持。

🚀 快速开始

本仓库中的YOLO模型是使用我自己标注的数据集，或在朋友的帮助下标注的数据集进行训练的（在相关情况下会适当提及他们）。使用开放数据集训练的YOLO模型将有各自独立的页面。

如果你想请求一个模型，我接受委托定制，可在Discord上联系我 - anzhc。

✨ 主要特性

多样化的检测任务：涵盖人脸分割、眼睛分割、胸部检测、无人机检测、动漫艺术评分等多个领域。
多版本模型：针对不同的任务和需求，提供了多个版本的模型，以满足不同的性能和精度要求。
详细的评估指标：每个模型都提供了mAP 50和mAP 50 - 95等评估指标，方便用户了解模型性能。

📦 可用模型

人脸分割

通用模型

这一系列模型旨在准确检测和分割人脸，在我自己标注的封闭数据集上进行训练。

模型	目标	mAP 50	mAP 50 - 95	类别	数据集大小	训练分辨率
Anzhc Face -seg.pt	人脸：插画、真实人脸	数据丢失	数据丢失	2（男性、女性）	数据丢失	640
Anzhc Face seg 640 v2 y8n.pt	人脸：插画、真实人脸	0.791（框） 0.765（掩码）	0.608（框） 0.445（掩码）	1（人脸）	~500	640
Anzhc Face seg 768 v2 y8n.pt	人脸：插画、真实人脸	0.765（框） 0.748（掩码）	0.572（框） 0.431（掩码）	1（人脸）	~500	768
Anzhc Face seg 768MS v2 y8n.pt	人脸：插画、真实人脸	0.807（框） 0.770（掩码）	0.601（框） 0.432（掩码）	1（人脸）	~500	768（多尺度）
Anzhc Face seg 1024 v2 y8n.pt	人脸：插画、真实人脸	0.768（框） 0.740（掩码）	0.557（框） 0.394（掩码）	1（人脸）	~500	1024
Anzhc Face seg 640 v3 y11n.pt	人脸：插画	0.882（框） 0.871（掩码）	0.689（框） 0.570（掩码）	1（人脸）	~660	640

更新说明：v3模型与人脸目标的匹配与v2略有不同，因此在较新的基准测试中，v2模型的统计数据与v3相比有所下降，尤其是在掩码方面，而框的表现基本相同。v3及以上版本的数据集将目标设定为包含眉毛和完整的睫毛，以在不使用大稀释参数的情况下获得更好的细节处理体验。

此外，从v3版本开始，我将使用YOLO11模型，因为它们似乎是对v8的直接升级。v12模型在训练时需要多50%的时间，且没有显示出显著的改进，即使安装了Flash Attention，所以短期内我不太可能切换到v12。

基准测试在640px下进行。v2模型的差异仅在于目标分辨率，因此它们的性能差异较小。

人脸分割示例1 人脸分割示例2

真实人脸（区分性别）

该模型主要在真实照片上进行训练，因此在处理插画时性能较差，但可以区分性别，可用于男性/女性检测。

模型	目标	mAP 50	mAP 50 - 95	类别	数据集大小	训练分辨率
Anzhcs ManFace v02 1024 y8n.pt	人脸：真实人脸	0.883（框），0.883（掩码）	0.778（框），0.704（掩码）	1（人脸）	~340	1024
Anzhcs WomanFace v05 1024 y8n.pt	人脸：真实人脸	0.82（框），0.82（掩码）	0.713（框），0.659（掩码）	1（人脸）	~600	1024

基准测试在640px下进行。真实人脸分割示例1 真实人脸分割示例2

眼睛分割

该模型专为使用Adetailer扩展进行眼睛修复而训练，专注于检测动漫眼睛，特别是巩膜区域，不包括睫毛和外眼区域。由于数据多次重新打乱（为未来版本扩展数据集），当前的基准测试可能不准确。

模型	目标	mAP 50	mAP 50 - 95	类别	数据集大小	训练分辨率
Anzhc Eyes -seg-hd.pt	眼睛：插画	0.925（框），0.868（掩码）	0.721（框），0.511（掩码）	1（眼睛）	~500（约）	1024

眼睛分割示例1 眼睛分割示例2

头部 + 头发分割

这是一个早期的模型（我的第一批模型之一），用于检测头部和头发，可用于需要自动化处理的人像修复流程。

模型	目标	mAP 50	mAP 50 - 95	类别	数据集大小	训练分辨率
Anzhc HeadHair seg y8n.pt	头部：插画、真实人脸	0.775（框），0.777（掩码）	0.576（框），0.552（掩码）	1（头部）	~3180	640
Anzhc HeadHair seg y8m.pt	头部：插画、真实人脸	0.867（框），0.862（掩码）	0.674（框），0.626（掩码）	1（头部）	~3180	640

头部+头发分割示例1 头部+头发分割示例2

胸部相关模型

胸部分割

该模型用于分割胸部，仅在动漫图像上进行训练，因此在处理真实图像时性能较弱，但仍有可能使用。

模型	目标	mAP 50	mAP 50 - 95	类别	数据集大小	训练分辨率
Anzhc Breasts Seg v1 1024n.pt	胸部：插画	0.742（框），0.73（掩码）	0.563（框），0.535（掩码）	1（胸部）	~2000	1024
Anzhc Breasts Seg v1 1024s.pt	胸部：插画	0.768（框），0.763（掩码）	0.596（框），0.575（掩码）	1（胸部）	~2000	1024
Anzhc Breasts Seg v1 1024m.pt	胸部：插画	0.782（框），0.775（掩码）	0.644（框），0.614（掩码）	1（胸部）	~2000	1024

胸部分割示例1 胸部分割示例2

胸部大小检测和分类

该模型用于检测和分类胸部大小，可用于内容标注和审核。它使用自定义的尺度，将默认的Booru尺寸与rule34中较为自由的上限范围相结合，进行简化和标准化。

尺寸范围是相对于身体比例确定的，而不是相对于场景，以避免在巨人症情况下产生混淆，并与场景分离。当然，这是主观的，因为只有我一个人对数据进行标注。

模型	目标	类别	数据集大小	训练分辨率
Anzhcs Breast Size det cls v8 y11m.pt	胸部：插画和真实图像	15（尺寸范围）	~16100	640

表格中未显示mAP值，因为我认为这个模型需要更复杂的统计数据。

胸部大小检测和分类示例

准确率相关说明：

准确比例 - 正确预测，与真实值完全匹配。
+1、-1、±1比例 - 可接受预测的扩展范围，分别为+1、-1和±1类。我建议将此统计数据作为主要准确率，因为±1范围可能是可接受的误差范围。
错误分类比例 - 检测正确，但分类超出±1误差范围。
漏检比例 - 模型未检测到，完全错过。
误检比例 - 检测到不存在的物体。在这个模型中，我怀疑误检比例也包括混淆率。在某些情况下，单个实例可能会被多次检测，只接受其中一个。这可以被视为误检，但会包含在±1准确率中。实际误检比例应该低于报告值，经手动测试。
GT实例 - 数据集中每个类别的实例数量。

基于以上说明，v8模型在检测和分类方面提供了相当不错的质量，除了11+类和0类（平胸）的极端情况，毕竟检测不存在的物体并不容易。2类（中等）在这种情况下是最容易混淆的类别，准确率最低。从图表中可以看出，它主要与1类混淆。其他有足够数据的类别表现相当不错，正常尺寸的准确率可达70%以上到80%中期，较大尺寸范围的准确率可达90%以上。错误分类很少见，在这方面我对模型性能很满意。平均错误分类率仅约为3%。不幸的是，漏检率超过10%，但数据在0 - 2类上高度倾斜，这些类别很难检测。假设将混淆检测（同时检测到2个类别）计入误检比例，v8的误检率非常合理。尺寸范围平滑，在很多情况下两个类别都可能适用。

最后一类（无法测量）用于分类在当前可见区域难以测量的异常值（例如，大部分不在画面内），但模型会尝试合理预测被遮挡和部分可见的实例。

所有比例都是相对于各自类别的GT实例数量计算的。

我将继续使用这种基准测试方法来评估未来的检测模型。

无人机检测

该模型用于分割和检测无人机。这与胸部模型的任务跨度很大，哈哈。我只是有了这个想法并实现了它。

强烈建议不要将其用于任何严肃的应用。

从v03版本开始，可将其视为v1版本，因为v03是我的内部迭代版本。

该模型对无人机型号非常敏感，在检测某些类型的无人机时会有困难，尤其是近距离拍摄的情况。在杂乱的背景下性能较差。

模型	目标	mAP 50	mAP 50 - 95	类别	数据集大小	训练分辨率
Anzhcs Drones v03 1024 y11n.pt	无人机	0.927（框） 0.888（掩码）	0.753（框） 0.508（掩码）	1（无人机）	~3460	1024

无人机检测示例1 无人机检测示例2

动漫艺术评分

这是一个分类模型，旨在根据人类偏好分配百分位组，而不是直接分配“质量”标签。

数据集由Danbooru上约100k张1 - 2年的图像组成（未使用较新和较旧的图像）。这将数据限制在有足够浏览量和评分的图像上，同时避免因年龄过大而过度曝光或曝光不足。

分数被用于划分百分位组，每组10%。

制作这个模型的主要目的是找出分数与图像质量之间是否存在显著的可发现的相关性。以下是我的自定义图表：

动漫艺术评分示例

（由于字母排序，top100是第二类，但在边缘接受图表中已重新排序）

从这个图表来看，考虑到总共有10个类别，我发现分数与图表上半部分之间存在弱到中等的相关性，与中低部分存在负相关性，低部分相关性较弱，最低部分相关性中等。

这意味着什么呢？

这意味着人们的评分与相关艺术特征之间存在有意义的相关性，但与评分中立的艺术作品之间没有有意义的相关性。负评分（top80 - 100）有中等相关性，这表明我们可以推断出一些统一的负面特征。top60类别非常有趣，因为它在提供的图像之间没有显示出相关性，即使在top - 3准确率方面（在这种情况下，它的表现接近随机选择（10%））。这表明在未被注意到的艺术作品之间没有特征相关性，至少YOLO模型无法找到这种相关性。

我们可以合理地预测人类评分会排在图表顶部的艺术作品，但无法预测处于中间水平的艺术作品，而在实际情况中，这部分艺术作品占大多数。我们可以根据人类偏好合理地预测低质量的艺术作品，但远非理想状态。

边缘接受图表 - 一种top - 1准确率，但带有类别接受边缘（1、2和3（从 - 1开始，然后加 + 1，然后 - 2类）（它不是如名称所示的±1 - 3））。这使我们能够了解类别之间的相关性。如果相对于第一个图表有显著增加，这意味着第二好的预测被选为top - 1。我们还可以看到类别之间的扩展相关性趋势。我们再次可以看到中间类别之间的相关性和准确率非常低，表明没有有意义的特征。这让我觉得数据集中处于中间位置的艺术作品没有理由处于这个位置，在理想情况下，它们应该排在更高或更低的位置。

top10 - 40类别相关性非常好，可用于人类偏好检测。有趣的是：胸部越大 - 评分越高。我完全支持这个观点。

一般来说，NSFW艺术作品的偏好评分会更高，哈哈，这真是个意想不到的结果，对吧？数据集由Danbooru/Safebooru（safebooru.donmai.us）各约50%组成，所以不是因为NSFW内容的过度代表。这也是为什么你不应该使用评分进行质量标注，但如果你正在寻找一种与当前动漫模型保持高度兼容性的方法，那就随意使用吧。底部评分（用于低质量/最差质量）之间的相关性较弱，所以在这方面要保守使用。

更大的模型和更多的数据可能会看到更多的相关性，但通过简单运行更大的变体进行的快速测试并没有让我获得更好的性能。