开源FashionCLIP视觉语言模型 - 专为时尚领域微调，生成通用产品表征

首页

Fashion Embedder

由 McClain 开发

FashionCLIP是基于CLIP的视觉语言模型，专门针对时尚领域进行微调，能够生成通用的时尚产品表征。

文本生成图像

Transformers

英语开源协议:MIT #时尚产品表征 #零样本迁移 #电商视觉搜索

下载量 58

发布时间 : 5/16/2024

模型简介

该模型通过对比学习在80万时尚产品数据集上训练，旨在为时尚概念生成可迁移的产品表征，支持零样本迁移到新数据集和任务。

模型特点

时尚领域优化

在包含80万时尚产品的专业数据集上微调，显著提升时尚相关任务的性能

零样本迁移能力

所学表征可直接迁移到新的时尚数据集和任务，无需额外训练

改进版本

FashionCLIP 2.0基于更优的laion/CLIP检查点，性能全面超越原版

模型能力

时尚产品图像分类

图像-文本匹配

时尚概念表征生成

跨域零样本迁移

使用案例

电子商务

产品搜索

通过文本查询匹配相关时尚产品图像

提升搜索准确率和用户体验

自动标签生成

为时尚产品图像自动生成描述性标签

减少人工标注成本

时尚推荐

视觉相似推荐

基于图像相似度推荐同类时尚产品

提高转化率和用户满意度

🚀 时尚CLIP模型卡

时尚CLIP是一个基于CLIP的模型，旨在为时尚概念生成通用的产品表示。它利用OpenAI发布的预训练检查点（ViT - B/32），在一个大型、高质量的新型时尚数据集上进行训练，以研究对类似CLIP的模型进行特定领域的微调，是否足以生成可零样本迁移到全新数据集和任务的产品表示。

声明：本模型卡改编自此处的模型卡。

📚 详细文档

✨ 主要特性

时尚CLIP利用OpenAI发布的预训练检查点（ViT - B/32），在大型高质量时尚数据集上训练，研究特定领域微调能否生成可零样本迁移的产品表示。

📦 模型详情

模型更新

更新时间（23年3月10日）：我们更新了模型！发现laion/CLIP - ViT - B - 32 - laion2B - s34B - b79K检查点（感谢Bin！）在时尚领域的表现优于原始的OpenAI CLIP。因此，我们微调了一个更新（且更好！）版本的FashionCLIP（以下简称FashionCLIP 2.0），同时保持架构不变。我们推测laion/CLIP - ViT - B - 32 - laion2B - s34B - b79K带来的性能提升是由于训练数据增加（是OpenAI CLIP数据的5倍）。不过，我们的论文观点不变 —— 在我们的时尚数据集上微调laion/CLIP提高了跨基准测试的零样本性能。见下表比较各模型的加权宏F1分数。

模型	FMNIST	KAGL	DEEP
OpenAI CLIP	0.66	0.63	0.45
FashionCLIP	0.74	0.67	0.48
Laion CLIP	0.78	0.71	0.58
FashionCLIP 2.0	0.83	0.73	0.62

模型概述

FashionCLIP是一个基于CLIP的模型，用于生成时尚概念的通用产品表示。它借助OpenAI发布的预训练检查点（ViT - B/32），在大型高质量的新型时尚数据集上进行训练，研究对类似CLIP的模型进行特定领域的微调，是否足以生成可零样本迁移到全新数据集和任务的产品表示。需要注意的是，FashionCLIP并非为模型部署而开发，研究人员若要进行部署，需先仔细研究其在特定部署环境中的能力。

模型日期

2023年3月

模型类型

该模型使用ViT - B/32 Transformer架构作为图像编码器，使用掩码自注意力Transformer作为文本编码器。这些编码器从预训练检查点开始训练，通过在包含800K个产品的时尚数据集上使用对比损失，最大化（图像，文本）对的相似度。

📊 数据

该模型在从Farfetch数据集[^1 等待官方发布。]获得的（图像，文本）对上进行训练。这是一个英文数据集，包含超过800K件时尚产品，涉及3000多个品牌，涵盖数十种物品类型。用于编码的图像是标准产品图像，即物品在白色背景上的图片，无人物。使用的文本是Farfetch数据集中的“亮点”（例如“条纹”、“长袖”、“阿玛尼”）和“简短描述”（如“80年代风格的T恤”）的拼接。

⚠️ 局限性、偏差和公平性

我们承认FashionCLIP存在一定局限性，并预计它继承了原始CLIP模型的某些局限性和偏差。我们认为微调不会显著加剧这些局限性：我们承认所使用的时尚数据对性别概念有明确假设，如“女士蓝色鞋子”，这不可避免地将服装方面与特定人群联系起来。

我们的研究还表明，所使用的数据给FashionCLIP带来了一定局限性。从文本模态来看，由于Farfetch数据集中的大多数标题较长，我们发现FashionCLIP在长查询上的性能可能优于短查询。从图像模态来看，FashionCLIP也偏向于标准产品图像（居中、白色背景）。

模型选择，即在微调过程中选择合适的停止标准，仍然是一个未解决的挑战。我们发现，当需要进行跨领域泛化（即跨不同数据集）时，使用领域内（即与测试数据分布相同）验证数据集的损失作为选择标准效果不佳，即使所使用的数据集相对多样且规模较大。

📄 许可证

本模型采用MIT许可证。

📖 引用

@Article{Chia2022,
    title="Contrastive language and vision learning of general fashion concepts",
    author="Chia, Patrick John
            and Attanasio, Giuseppe
            and Bianchi, Federico
            and Terragni, Silvia
            and Magalh{\~a}es, Ana Rita
            and Goncalves, Diogo
            and Greco, Ciro
            and Tagliabue, Jacopo",
    journal="Scientific Reports",
    year="2022",
    month="Nov",
    day="08",
    volume="12",
    number="1",
    abstract="The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from general and transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model adapted for the fashion industry. We demonstrate the effectiveness of the representations learned by FashionCLIP with extensive tests across a variety of tasks, datasets and generalization probes. We argue that adaptations of large pre-trained models such as CLIP offer new perspectives in terms of scalability and sustainability for certain types of players in the industry. Finally, we detail the costs and environmental impact of training, and release the model weights and code as open source contribution to the community.",
    issn="2045-2322",
    doi="10.1038/s41598-022-23052-9",
    url="https://doi.org/10.1038/s41598-022-23052-9"
}