🚀 时尚CLIP模型卡
时尚CLIP是一个基于CLIP的模型,旨在为时尚概念生成通用的产品表示。它利用OpenAI发布的预训练检查点(ViT - B/32),在一个大型、高质量的新型时尚数据集上进行训练,以研究对类似CLIP的模型进行特定领域的微调,是否足以生成可零样本迁移到全新数据集和任务的产品表示。

声明:本模型卡改编自此处的模型卡。
📚 详细文档
✨ 主要特性
时尚CLIP利用OpenAI发布的预训练检查点(ViT - B/32),在大型高质量时尚数据集上训练,研究特定领域微调能否生成可零样本迁移的产品表示。
📦 模型详情
模型更新
更新时间(23年3月10日):我们更新了模型!发现laion/CLIP - ViT - B - 32 - laion2B - s34B - b79K检查点(感谢Bin!)在时尚领域的表现优于原始的OpenAI CLIP。因此,我们微调了一个更新(且更好!)版本的FashionCLIP(以下简称FashionCLIP 2.0),同时保持架构不变。我们推测laion/CLIP - ViT - B - 32 - laion2B - s34B - b79K
带来的性能提升是由于训练数据增加(是OpenAI CLIP数据的5倍)。不过,我们的论文观点不变 —— 在我们的时尚数据集上微调laion/CLIP
提高了跨基准测试的零样本性能。见下表比较各模型的加权宏F1分数。
模型 |
FMNIST |
KAGL |
DEEP |
OpenAI CLIP |
0.66 |
0.63 |
0.45 |
FashionCLIP |
0.74 |
0.67 |
0.48 |
Laion CLIP |
0.78 |
0.71 |
0.58 |
FashionCLIP 2.0 |
0.83 |
0.73 |
0.62 |
模型概述
FashionCLIP是一个基于CLIP的模型,用于生成时尚概念的通用产品表示。它借助OpenAI发布的预训练检查点(ViT - B/32),在大型高质量的新型时尚数据集上进行训练,研究对类似CLIP的模型进行特定领域的微调,是否足以生成可零样本迁移到全新数据集和任务的产品表示。需要注意的是,FashionCLIP并非为模型部署而开发,研究人员若要进行部署,需先仔细研究其在特定部署环境中的能力。
模型日期
2023年3月
模型类型
该模型使用ViT - B/32 Transformer架构作为图像编码器,使用掩码自注意力Transformer作为文本编码器。这些编码器从预训练检查点开始训练,通过在包含800K个产品的时尚数据集上使用对比损失,最大化(图像,文本)对的相似度。
📊 数据
该模型在从Farfetch数据集[^1 等待官方发布。]获得的(图像,文本)对上进行训练。这是一个英文数据集,包含超过800K件时尚产品,涉及3000多个品牌,涵盖数十种物品类型。用于编码的图像是标准产品图像,即物品在白色背景上的图片,无人物。使用的文本是Farfetch数据集中的“亮点”(例如“条纹”、“长袖”、“阿玛尼”)和“简短描述”(如“80年代风格的T恤”)的拼接。
⚠️ 局限性、偏差和公平性
我们承认FashionCLIP存在一定局限性,并预计它继承了原始CLIP模型的某些局限性和偏差。我们认为微调不会显著加剧这些局限性:我们承认所使用的时尚数据对性别概念有明确假设,如“女士蓝色鞋子”,这不可避免地将服装方面与特定人群联系起来。
我们的研究还表明,所使用的数据给FashionCLIP带来了一定局限性。从文本模态来看,由于Farfetch数据集中的大多数标题较长,我们发现FashionCLIP在长查询上的性能可能优于短查询。从图像模态来看,FashionCLIP也偏向于标准产品图像(居中、白色背景)。
模型选择,即在微调过程中选择合适的停止标准,仍然是一个未解决的挑战。我们发现,当需要进行跨领域泛化(即跨不同数据集)时,使用领域内(即与测试数据分布相同)验证数据集的损失作为选择标准效果不佳,即使所使用的数据集相对多样且规模较大。
📄 许可证
本模型采用MIT许可证。
📖 引用
@Article{Chia2022,
title="Contrastive language and vision learning of general fashion concepts",
author="Chia, Patrick John
and Attanasio, Giuseppe
and Bianchi, Federico
and Terragni, Silvia
and Magalh{\~a}es, Ana Rita
and Goncalves, Diogo
and Greco, Ciro
and Tagliabue, Jacopo",
journal="Scientific Reports",
year="2022",
month="Nov",
day="08",
volume="12",
number="1",
abstract="The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from general and transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model adapted for the fashion industry. We demonstrate the effectiveness of the representations learned by FashionCLIP with extensive tests across a variety of tasks, datasets and generalization probes. We argue that adaptations of large pre-trained models such as CLIP offer new perspectives in terms of scalability and sustainability for certain types of players in the industry. Finally, we detail the costs and environmental impact of training, and release the model weights and code as open source contribution to the community.",
issn="2045-2322",
doi="10.1038/s41598-022-23052-9",
url="https://doi.org/10.1038/s41598-022-23052-9"
}