Segformer B2 Human Parse 24
模型简介
这是一个基于SegFormer-b2架构的图像分割模型,专门用于人体部位和服装的精细分割。模型在human_parsing_29_mix数据集上进行了微调,能够识别24种不同的人体部位和服装类别。
模型特点
精细人体部位分割
能够识别24种不同的人体部位和服装类别,包括头发、面部、手臂、腿部等细节部位
高精度分割
在评估集上达到0.6023的平均交并比和0.9780的整体准确率
服装识别
能够区分不同类型的服装,如上装、连衣裙、外套等
模型能力
人体部位分割
服装识别
图像语义分割
使用案例
时尚与零售
虚拟试衣
用于电商平台的虚拟试衣功能,精确识别用户身体部位和现有服装
服装推荐
基于用户穿着分析提供个性化服装推荐
人机交互
增强现实应用
在AR应用中精确识别用户身体部位以实现更自然的交互
🚀 segformer-b2-human-parse-24
本模型是 mattmdjaga/segformer_b2_clothes 在 human_parsing_29_mix 数据集上的微调版本。它在评估集上取得了以下结果,可用于图像分割任务,为相关领域的研究和应用提供了有力支持。
🚀 快速开始
此模型是在 mattmdjaga/segformer_b2_clothes 的基础上,使用 human_parsing_29_mix 数据集进行微调得到的。以下是该模型在评估集上的表现:
- 损失值(Loss):0.0818
- 平均交并比(Mean Iou):0.6023
- 平均准确率(Mean Accuracy):0.6321
- 总体准确率(Overall Accuracy):0.9780
- 背景准确率(Accuracy Background):0.9969
- 帽子准确率(Accuracy Hat):nan
- 头发准确率(Accuracy Hair):0.9646
- 手套准确率(Accuracy Glove):0.0
- 眼镜准确率(Accuracy Glasses):0.0
- 上半身区域准确率(Accuracy Upper Only Torso Region):0.9747
- 连衣裙上半身区域准确率(Accuracy Dresses Only Torso Region):0.4939
- 外套上半身区域准确率(Accuracy Coat Only Torso Region):0.0039
- 袜子准确率(Accuracy Socks):0.0
- 左裤准确率(Accuracy Left Pants):0.9604
- 右裤准确率(Accuracy Right Patns):0.9646
- 颈部皮肤准确率(Accuracy Skin Around Neck Region):0.9585
- 围巾准确率(Accuracy Scarf):nan
- 裙子准确率(Accuracy Skirts):0.8904
- 面部准确率(Accuracy Face):0.9796
- 左臂准确率(Accuracy Left Arm):0.9703
- 右臂准确率(Accuracy Right Arm):0.9700
- 左腿准确率(Accuracy Left Leg):0.9267
- 右腿准确率(Accuracy Right Leg):0.9297
- 左鞋准确率(Accuracy Left Shoe):0.0
- 右鞋准确率(Accuracy Right Shoe):0.0
- 上装左袖准确率(Accuracy Left Sleeve For Upper):0.9462
- 上装右袖准确率(Accuracy Right Sleeve For Upper):0.9517
- 包准确率(Accuracy Bag):0.0234
- 背景交并比(Iou Background):0.9941
- 帽子交并比(Iou Hat):nan
- 头发交并比(Iou Hair):0.9268
- 手套交并比(Iou Glove):0.0
- 眼镜交并比(Iou Glasses):0.0
- 上半身区域交并比(Iou Upper Only Torso Region):0.9351
- 连衣裙上半身区域交并比(Iou Dresses Only Torso Region):0.4059
- 外套上半身区域交并比(Iou Coat Only Torso Region):0.0035
- 袜子交并比(Iou Socks):0.0
- 左裤交并比(Iou Left Pants):0.9232
- 右裤交并比(Iou Right Patns):0.9217
- 颈部皮肤交并比(Iou Skin Around Neck Region):0.9227
- 围巾交并比(Iou Scarf):nan
- 裙子交并比(Iou Skirts):0.7887
- 面部交并比(Iou Face):0.9582
- 左臂交并比(Iou Left Arm):0.9436
- 右臂交并比(Iou Right Arm):0.9426
- 左腿交并比(Iou Left Leg):0.8836
- 右腿交并比(Iou Right Leg):0.8767
- 左鞋交并比(Iou Left Shoe):0.0
- 右鞋交并比(Iou Right Shoe):0.0
- 上装左袖交并比(Iou Left Sleeve For Upper):0.9005
- 上装右袖交并比(Iou Right Sleeve For Upper):0.9012
- 包交并比(Iou Bag):0.0232
📚 详细文档
模型描述
该模型的标签映射如下:
"id2label": {
"0": "background",
"1": "hat",
"2": "hair",
"3": "glove",
"4": "glasses",
"5": "upper_only_torso_region",
"6": "dresses_only_torso_region",
"7": "coat_only_torso_region",
"8": "socks",
"9": "left_pants",
"10": "right_patns",
"11": "skin_around_neck_region",
"12": "scarf",
"13": "skirts",
"14": "face",
"15": "left_arm",
"16": "right_arm",
"17": "left_leg",
"18": "right_leg",
"19": "left_shoe",
"20": "right_shoe",
"21": "left_sleeve_for_upper",
"22": "right_sleeve_for_upper",
"23": "bag"
}
训练和评估数据
相关信息待补充。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):6e-05
- 训练批次大小(train_batch_size):16
- 评估批次大小(eval_batch_size):12
- 随机种子(seed):42
- 优化器(optimizer):Adam,其中 betas=(0.9, 0.999),epsilon=1e-08
- 学习率调度器类型(lr_scheduler_type):线性(linear)
- 训练轮数(num_epochs):8
训练结果
训练损失 | 轮数 | 步数 | 验证损失 | 平均交并比 | 平均准确率 | 总体准确率 | 背景准确率 | 帽子准确率 | 头发准确率 | 手套准确率 | 眼镜准确率 | 上半身区域准确率 | 连衣裙上半身区域准确率 | 外套上半身区域准确率 | 袜子准确率 | 左裤准确率 | 右裤准确率 | 颈部皮肤准确率 | 围巾准确率 | 裙子准确率 | 面部准确率 | 左臂准确率 | 右臂准确率 | 左腿准确率 | 右腿准确率 | 左鞋准确率 | 右鞋准确率 | 上装左袖准确率 | 上装右袖准确率 | 包准确率 | 背景交并比 | 帽子交并比 | 头发交并比 | 手套交并比 | 眼镜交并比 | 上半身区域交并比 | 连衣裙上半身区域交并比 | 外套上半身区域交并比 | 袜子交并比 | 左裤交并比 | 右裤交并比 | 颈部皮肤交并比 | 围巾交并比 | 裙子交并比 | 面部交并比 | 左臂交并比 | 右臂交并比 | 左腿交并比 | 右腿交并比 | 左鞋交并比 | 右鞋交并比 | 上装左袖交并比 | 上装右袖交并比 | 包交并比 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0.0652 | 1.62 | 1000 | 0.0802 | 0.5857 | 0.6166 | 0.9737 | 0.9963 | nan | 0.9490 | 0.0 | 0.0 | 0.9801 | 0.4034 | 0.0 | 0.0 | 0.9487 | 0.9574 | 0.9272 | nan | 0.8783 | 0.9782 | 0.9628 | 0.9534 | 0.8874 | 0.9012 | 0.0 | 0.0 | 0.9227 | 0.9197 | 0.0 | 0.9926 | nan | 0.9117 | 0.0 | 0.0 | 0.9217 | 0.3541 | 0.0 | 0.0 | 0.9084 | 0.9073 | 0.8963 | nan | 0.7766 | 0.9455 | 0.9210 | 0.9191 | 0.8405 | 0.8496 | 0.0 | 0.0 | 0.8673 | 0.8728 | 0.0 |
0.061 | 3.23 | 2000 | 0.0843 | 0.5977 | 0.6335 | 0.9747 | 0.9967 | nan | 0.9580 | 0.0 | 0.0 | 0.9657 | 0.5733 | 0.1504 | 0.0 | 0.9591 | 0.9600 | 0.9497 | nan | 0.8169 | 0.9789 | 0.9667 | 0.9645 | 0.8906 | 0.9165 | 0.0 | 0.0 | 0.9444 | 0.9445 | 0.0003 | 0.9935 | nan | 0.9199 | 0.0 | 0.0 | 0.9273 | 0.4058 | 0.1206 | 0.0 | 0.9131 | 0.9082 | 0.9128 | nan | 0.7330 | 0.9527 | 0.9355 | 0.9343 | 0.8534 | 0.8651 | 0.0 | 0.0 | 0.8860 | 0.8879 | 0.0003 |
0.0653 | 4.85 | 3000 | 0.0823 | 0.6000 | 0.6295 | 0.9775 | 0.9967 | nan | 0.9621 | 0.0 | 0.0 | 0.9780 | 0.4991 | 0.0044 | 0.0 | 0.9587 | 0.9649 | 0.9562 | nan | 0.8842 | 0.9769 | 0.9692 | 0.9651 | 0.9198 | 0.9273 | 0.0 | 0.0 | 0.9422 | 0.9415 | 0.0037 | 0.9939 | nan | 0.9247 | 0.0 | 0.0 | 0.9341 | 0.4136 | 0.0042 | 0.0 | 0.9202 | 0.9193 | 0.9193 | nan | 0.7899 | 0.9563 | 0.9403 | 0.9388 | 0.8745 | 0.8741 | 0.0 | 0.0 | 0.8963 | 0.8970 | 0.0037 |
0.0402 | 6.46 | 4000 | 0.0818 | 0.6023 | 0.6321 | 0.9780 | 0.9969 | nan | 0.9646 | 0.0 | 0.0 | 0.9747 | 0.4939 | 0.0039 | 0.0 | 0.9604 | 0.9646 | 0.9585 | nan | 0.8904 | 0.9796 | 0.9703 | 0.9700 | 0.9267 | 0.9297 | 0.0 | 0.0 | 0.9462 | 0.9517 | 0.0234 | 0.9941 | nan | 0.9268 | 0.0 | 0.0 | 0.9351 | 0.4059 | 0.0035 | 0.0 | 0.9232 | 0.9217 | 0.9227 | nan | 0.7887 | 0.9582 | 0.9436 | 0.9426 | 0.8836 | 0.8767 | 0.0 | 0.0 | 0.9005 | 0.9012 | 0.0232 |
框架版本
- Transformers:4.35.2
- Pytorch:2.1.1
- Datasets:2.15.0
- Tokenizers:0.15.0
📄 许可证
本模型采用 MIT 许可证。
Clipseg Rd64 Refined
Apache-2.0
CLIPSeg是一种基于文本与图像提示的图像分割模型,支持零样本和单样本图像分割任务。
图像分割
Transformers

C
CIDAS
10.0M
122
RMBG 1.4
其他
BRIA RMBG v1.4 是一款先进的背景移除模型,专为高效分离各类图像的前景与背景而设计,适用于非商业用途。
图像分割
Transformers

R
briaai
874.12k
1,771
RMBG 2.0
其他
BRIA AI开发的最新背景移除模型,能有效分离各类图像的前景与背景,适合大规模商业内容创作场景。
图像分割
Transformers

R
briaai
703.33k
741
Segformer B2 Clothes
MIT
基于ATR数据集微调的SegFormer模型,用于服装和人体分割
图像分割
Transformers

S
mattmdjaga
666.39k
410
Sam Vit Base
Apache-2.0
SAM是一个能够通过输入提示(如点或框)生成高质量对象掩码的视觉模型,支持零样本分割任务
图像分割
Transformers 其他

S
facebook
635.09k
137
Birefnet
MIT
BiRefNet是一个用于高分辨率二分图像分割的深度学习模型,通过双边参考网络实现精确的图像分割。
图像分割
Transformers

B
ZhengPeng7
626.54k
365
Segformer B1 Finetuned Ade 512 512
其他
SegFormer是一种基于Transformer的语义分割模型,在ADE20K数据集上进行了微调,适用于图像分割任务。
图像分割
Transformers

S
nvidia
560.79k
6
Sam Vit Large
Apache-2.0
SAM是一个能够通过输入提示点或边界框生成高质量物体掩膜的视觉模型,具备零样本迁移能力。
图像分割
Transformers 其他

S
facebook
455.43k
28
Face Parsing
基于nvidia/mit-b5微调的语义分割模型,用于面部解析任务
图像分割
Transformers 英语

F
jonathandinu
398.59k
157
Sam Vit Huge
Apache-2.0
SAM是一个能够根据输入提示生成高质量对象掩码的视觉模型,支持零样本迁移到新任务
图像分割
Transformers 其他

S
facebook
324.78k
163
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98