🚀 不良解剖结构与真实感分类器模型卡片
这是一个经过微调的视觉变换器模型,用于对AI生成的图片进行不良解剖结构和真实感分类。该模型目前是我Youtube系列的支持模型,欢迎在此基础上进行拓展。
🚀 快速开始
微调
请参考此模型在支持的Github仓库中的初始微调脚本:https://github.com/angusleung100/barc-finetuning-gh
使用模型进行分类
请参考Hugging Face文档中关于图像分类的示例:https://huggingface.co/docs/transformers/en/tasks/image_classification#inference
✨ 主要特性
- 检测图像是真实图像还是高质量的AI生成图像。
- 检测AI生成图像中的不良解剖结构,以触发重新生成。
📚 详细文档
模型详情
检测逼真AI生成图像中的不良解剖结构
并非所有图像生成模型生成的图像都具有良好的解剖结构。有些可能会生成典型的“畸形手部”,即手可能有超过5根手指。该模型的目标是检测AI生成图像中的此类解剖结构问题。
区分真实真实感与AI真实感
AI生成的图像在实现真实感时往往存在问题,主要体现在皮肤和生成风格上。与社交媒体上的普通帖子相比,经过高清放大的AI生成图像很容易通过一些特征被识别出来,如皮肤有光泽或光线非常明亮。以下是一些示例:
模型描述
该模型在google/vit-base-patch16-224-in21k视觉变换器(ViT)的基础上进行了微调。
使用范围
预期用途
- 检测图像是真实图像还是高质量的AI生成图像。
- 检测AI生成图像中的不良解剖结构,以触发重新生成。
非预期用途
偏差、风险和局限性
此初始模型是在Stable Diffusion v1.5上生成的图像上进行训练的,使用的是pleasebankai的Beautiful Realistic Asians v6检查点。该模型的数据集仅包含134张图像,其中只有6张是不真实且解剖结构不良的图像。(后续文档更新时将在模型卡片中添加数据集详细信息)
建议
建议扩展数据集,并使用更多不同类型的角色继续训练,以提高模型对不符合训练图像特征的图像的性能。
训练详情
训练和测试数据
本部分应链接到数据集卡片,可能还会简要介绍训练数据的相关信息以及与数据预处理或额外过滤相关的文档。
数据集图像标签标准
不良/良好解剖结构
- 角色身体部位有变形或额外肢体。
- 背景不过度抠图(因为在后期处理中可以使用专业编辑软件轻松去除或更改背景)。
真实与不真实
确定真实感的标准更具挑战性。由于现在很多人喜欢使用滤镜,因此很难确定一个好的真实感标准。以下是我为该模型确定的标准:
- 第一印象:我是否会仔细观察并产生怀疑?还是我能立即判断它不是真实的?
- 光线:对于业余风格的图像,更容易进行分类,因为可以先考虑其他标准。一些专业图像看起来像是AI生成的,但实际上是经过大量编辑的。但我们也可以根据不自然的光线进行判断。
- 皮肤和头发:如果皮肤和头发过于有光泽(如模型卡片开头的图像),或者放大后的图像细节不足,或者放大后的图像细节过多。
- 摄影风格:这可能会导致误判,但如果拍摄的焦点看起来很奇怪或过度修饰,则可能是不真实的。
总体而言,分类是基于“直觉”。该模型的目标是能够复制这种“直觉”,即对图像的潜在感受。
兼容数据集的图像
由于使用了默认的数据整理器,且图像主要来自SD 1.5,我不确定不同模型的图像和尺寸是否会影响训练,即使我们后来使用的3张图像在测试管道中没有出现问题。
以下是一些默认图像尺寸应该适用的模型列表:
- Stable Diffusion 1.5
- OpenDalle v1.1
- Flux 1
- Copilot上的Dall - E 3
数据集统计
每个标签的图像数量
=======================
真实但解剖结构不良: 6 (4.48%)
真实且解剖结构良好: 15 (11.19%)
不真实且解剖结构不良: 81 (60.45%)
不真实但解剖结构良好: 32 (23.88%)
图像总数: 134
评估
结果
***** 训练指标 *****
轮数 = 3.0
总浮点运算数 = 20135801GF
训练损失 = 0.8453
训练运行时间 = 0:00:42.83
每秒训练样本数 = 6.514
每秒训练步数 = 0.841
***** 评估指标 *****
轮数 = 3.0
评估准确率 = 0.6341
评估F1分数 = 0.513
评估损失 = 0.8219
评估精确率 = 0.464
评估召回率 = 0.6341
评估运行时间 = 0:00:06.95
每秒评估样本数 = 5.893
每秒评估步数 = 0.862
总结
初始数据集和微调后的准确率为64.41%,F1分数为51.3%,对于一个小型业余数据集来说,这个结果较低但符合预期。
希望未来我有时间进一步扩展数据集并提高模型的性能。
下一步计划:
- 增加更多不同类型的角色和姿势。
- 增加更多不同的服装风格和光线条件。
- 采用不同的相机风格。
- 纳入不同模型生成的图像 -> 目前主要由SD1.5 BRAV6和BRAV7检查点生成的图像主导。
模型检查
你可以在初始微调笔记本中查看示例管道推理及其结果。
示例位于笔记本的底部。你可以使用ctr+f
搜索使用自定义输入测试模型
以更快找到示例。
模型卡片联系方式
如果你有任何问题,请随时联系我,也可以在Github上找到我: