segformer_b3_clothes开源模型 - 免费部署实现服装与人体精准分割

首页

Segformer B3 Clothes

由 sayeed99 开发

基于ATR数据集微调的SegFormer模型，主要用于服装分割，也可用于人体分割

图像分割

Transformers

开源协议:MIT #服装分割 #人体部件识别 #高精度语义分割

下载量 102.42k

发布时间 : 2/27/2024

模型简介

这是一个基于SegFormer架构的语义分割模型，专门针对服装和人体部位分割任务进行了微调。能够识别和分割图像中的18个不同类别，包括各种服装、配饰和人体部位。

模型特点

多类别服装分割

能够识别和分割18种不同的服装和人体部位类别

基于Transformer架构

采用SegFormer架构，结合了Transformer的优势和高效设计

开源训练代码

提供完整的训练代码，方便用户进行自定义训练

模型能力

服装分割

人体部位识别

图像语义分割

使用案例

时尚与零售

虚拟试衣

通过精确分割服装区域，支持虚拟试衣应用

时尚分析

分析图像中的服装搭配和流行趋势

人机交互

增强现实应用

为AR应用提供精确的人体部位分割

🚀 Segformer B3 用于服装分割的微调模型

本项目是基于 SegFormer 模型在 ATR 数据集上进行微调，用于服装分割，同时也可用于人体分割。该数据集在 Hugging Face 上名为 "mattmdjaga/human_parsing_dataset"。

🚀 快速开始

安装依赖

确保你已经安装了 transformers、torch、requests 和 matplotlib 库。如果没有安装，可以使用以下命令进行安装：

pip install transformers torch requests matplotlib

运行示例代码

from transformers import SegformerImageProcessor, AutoModelForSemanticSegmentation
from PIL import Image
import requests
import matplotlib.pyplot as plt
import torch.nn as nn

processor = SegformerImageProcessor.from_pretrained("sayeed99/segformer_b3_clothes")
model = AutoModelForSemanticSegmentation.from_pretrained("sayeed99/segformer_b3_clothes")

url = "https://plus.unsplash.com/premium_photo-1673210886161-bfcc40f54d1f?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxzZWFyY2h8MXx8cGVyc29uJTIwc3RhbmRpbmd8ZW58MHx8MHx8&w=1000&q=80"

image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits.cpu()

upsampled_logits = nn.functional.interpolate(
    logits,
    size=image.size[::-1],
    mode="bilinear",
    align_corners=False,
)

pred_seg = upsampled_logits.argmax(dim=1)[0]
plt.imshow(pred_seg)

标签说明

标签索引	标签名称
0	背景
1	帽子
2	头发
3	太阳镜
4	上衣
5	裙子
6	裤子
7	连衣裙
8	腰带
9	左脚鞋
10	右脚鞋
11	脸部
12	左腿
13	右腿
14	左臂
15	右臂
16	包
17	围巾

✨ 主要特性

多用途分割：不仅可以进行服装分割，还能用于人体分割。
微调模型：基于 SegFormer 模型在特定数据集上进行微调，提高分割效果。
可视化结果：通过示例代码可以方便地进行推理并可视化分割结果。

💻 使用示例

基础用法

from transformers import SegformerImageProcessor, AutoModelForSemanticSegmentation
from PIL import Image
import requests
import matplotlib.pyplot as plt
import torch.nn as nn

processor = SegformerImageProcessor.from_pretrained("sayeed99/segformer_b3_clothes")
model = AutoModelForSemanticSegmentation.from_pretrained("sayeed99/segformer_b3_clothes")

url = "https://plus.unsplash.com/premium_photo-1673210886161-bfcc40f54d1f?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxzZWFyY2h8MXx8cGVyc29uJTIwc3RhbmRpbmd8ZW58MHx8MHx8&w=1000&q=80"

image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits.cpu()

upsampled_logits = nn.functional.interpolate(
    logits,
    size=image.size[::-1],
    mode="bilinear",
    align_corners=False,
)

pred_seg = upsampled_logits.argmax(dim=1)[0]
plt.imshow(pred_seg)

高级用法

你可以将上述代码封装成函数，方便在不同场景下调用：

from transformers import SegformerImageProcessor, AutoModelForSemanticSegmentation
from PIL import Image
import requests
import matplotlib.pyplot as plt
import torch.nn as nn

def perform_segmentation(image_url, model_name="sayeed99/segformer_b3_clothes"):
    processor = SegformerImageProcessor.from_pretrained(model_name)
    model = AutoModelForSemanticSegmentation.from_pretrained(model_name)

    image = Image.open(requests.get(image_url, stream=True).raw)
    inputs = processor(images=image, return_tensors="pt")

    outputs = model(**inputs)
    logits = outputs.logits.cpu()

    upsampled_logits = nn.functional.interpolate(
        logits,
        size=image.size[::-1],
        mode="bilinear",
        align_corners=False,
    )

    pred_seg = upsampled_logits.argmax(dim=1)[0]
    plt.imshow(pred_seg)
    plt.show()

# 使用示例
image_url = "https://plus.unsplash.com/premium_photo-1673210886161-bfcc40f54d1f?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxzZWFyY2h8MXx8cGVyc29uJTIwc3RhbmRpbmd8ZW58MHx8MHx8&w=1000&q=80"
perform_segmentation(image_url)

📚 详细文档

评估指标

标签索引	标签名称	类别准确率	类别 IoU
0	背景	0.99	0.99
1	帽子	0.73	0.68
2	头发	0.91	0.82
3	太阳镜	0.73	0.63
4	上衣	0.87	0.78
5	裙子	0.76	0.65
6	裤子	0.90	0.84
7	连衣裙	0.74	0.55
8	腰带	0.35	0.30
9	左脚鞋	0.74	0.58
10	右脚鞋	0.75	0.60
11	脸部	0.92	0.85
12	左腿	0.90	0.82
13	右腿	0.90	0.81
14	左臂	0.86	0.74
15	右臂	0.82	0.73
16	包	0.91	0.84
17	围巾	0.63	0.29

整体评估指标：

评估损失：0.15
平均准确率：0.80
平均 IoU：0.69

训练代码

最新的训练代码已发布。目前仅包含带有部分注释的纯代码，后续会添加 Colab 笔记本版本和博客文章，以提高其易用性。

📄 许可证

本模型的许可证信息可在此处查看。

📚 引用信息

如果你使用了本模型，请引用以下 BibTeX 条目：

@article{DBLP:journals/corr/abs-2105-15203,
  author    = {Enze Xie and
               Wenhai Wang and
               Zhiding Yu and
               Anima Anandkumar and
               Jose M. Alvarez and
               Ping Luo},
  title     = {SegFormer: Simple and Efficient Design for Semantic Segmentation with
               Transformers},
  journal   = {CoRR},
  volume    = {abs/2105.15203},
  year      = {2021},
  url       = {https://arxiv.org/abs/2105.15203},
  eprinttype = {arXiv},
  eprint    = {2105.15203},
  timestamp = {Wed, 02 Jun 2021 11:46:42 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2105-15203.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}