🚀 时尚CLIP模型卡片
时尚CLIP是一个基于CLIP的模型,旨在为时尚概念生成通用的产品表示。它利用OpenAI发布的预训练检查点,在大规模、高质量的时尚数据集上进行训练,以研究对类似CLIP的模型进行特定领域的微调,是否足以生成可零样本迁移到全新数据集和任务的产品表示。
🚀 快速开始
可通过以下链接快速了解和使用本模型:
✨ 主要特性
- 模型更新:于2023年3月10日更新模型,采用 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 检查点进行微调,得到性能更优的FashionCLIP 2.0版本。
- 性能提升:在多个基准测试中,FashionCLIP 2.0的加权宏F1分数均优于其他模型,如在FMNIST、KAGL和DEEP数据集上表现出色。
- 通用表示:能够生成通用的时尚产品表示,可零样本迁移到全新数据集和任务。
📚 详细文档
🔧 技术细节
模型更新说明
2023年3月更新模型,发现 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 检查点在时尚领域表现优于原始OpenAI CLIP。因此微调得到FashionCLIP 2.0,架构保持不变。推测性能提升得益于训练数据增加(是OpenAI CLIP数据的5倍)。
模型性能对比
模型 |
FMNIST |
KAGL |
DEEP |
OpenAI CLIP |
0.66 |
0.63 |
0.45 |
FashionCLIP |
0.74 |
0.67 |
0.48 |
Laion CLIP |
0.78 |
0.71 |
0.58 |
FashionCLIP 2.0 |
0.83 |
0.73 |
0.62 |
模型概述
FashionCLIP是基于CLIP的模型,用于生成时尚概念的通用产品表示。利用 OpenAI 发布的预训练检查点(ViT-B/32),在大型高质量时尚数据集上训练,研究特定领域微调是否能生成可零样本迁移的产品表示。该模型并非用于模型部署,研究人员需先结合具体场景研究其能力。
模型日期
2023年3月
模型类型
- 图像编码器:使用ViT-B/32 Transformer架构。
- 文本编码器:使用掩码自注意力Transformer。
- 训练方式:从预训练检查点开始,在包含800K产品的时尚数据集上,通过对比损失最大化(图像,文本)对的相似度。
📦 训练数据
模型在从Farfetch数据集获取的(图像,文本)对上进行训练。该数据集是英文数据集,包含超过800K时尚产品,有3K多个品牌,涵盖数十种物品类型。编码使用的图像是标准产品图像(白色背景、无人物),文本是Farfetch数据集中的 亮点(如“条纹”、“长袖”、“阿玛尼”)和 简短描述(如“80年代风格T恤”)的拼接。
🔧 局限性、偏差和公平性
- 继承原模型局限性:承认FashionCLIP继承了原始CLIP模型的某些局限性和偏差,微调不会显著增加这些局限性。例如,时尚数据对性别概念有明确假设,不可避免地将服装与特定人群关联。
- 数据引入的局限性
- 文本模态:由于Farfetch数据集的大多数标题较长,FashionCLIP在长查询上可能比短查询表现更好。
- 图像模态:模型偏向标准产品图像(居中、白色背景)。
- 模型选择挑战:在微调过程中选择合适的停止标准仍是一个开放挑战。当需要跨领域泛化时,使用域内验证数据集的损失作为选择标准效果不佳,即使数据集相对多样且规模较大。
📄 许可证
本模型采用MIT许可证。
📖 引用
@Article{Chia2022,
title="Contrastive language and vision learning of general fashion concepts",
author="Chia, Patrick John
and Attanasio, Giuseppe
and Bianchi, Federico
and Terragni, Silvia
and Magalh{\~a}es, Ana Rita
and Goncalves, Diogo
and Greco, Ciro
and Tagliabue, Jacopo",
journal="Scientific Reports",
year="2022",
month="Nov",
day="08",
volume="12",
number="1",
abstract="The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from general and transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model adapted for the fashion industry. We demonstrate the effectiveness of the representations learned by FashionCLIP with extensive tests across a variety of tasks, datasets and generalization probes. We argue that adaptations of large pre-trained models such as CLIP offer new perspectives in terms of scalability and sustainability for certain types of players in the industry. Finally, we detail the costs and environmental impact of training, and release the model weights and code as open source contribution to the community.",
issn="2045-2322",
doi="10.1038/s41598-022-23052-9",
url="https://doi.org/10.1038/s41598-022-23052-9"
}