FashionCLIP开源视觉语言模型 - 免费部署生成时尚领域通用产品表征

首页

Fashion Clip

由 patrickjohncyh 开发

FashionCLIP是基于CLIP开发的视觉语言模型，专门针对时尚领域进行微调，能够生成通用产品表征。

文本生成图像

Transformers

英语开源协议:MIT #时尚产品表征 #零样本迁移 #电商视觉搜索

下载量 3.8M

发布时间 : 2/21/2023

模型简介

该模型通过对比学习在包含80万时尚产品的数据集上训练，旨在为时尚概念生成通用产品表征，支持零样本迁移到新数据集和任务。

模型特点

时尚领域优化

在包含80万时尚产品的专业数据集上微调，显著提升时尚相关任务的性能

零样本迁移能力

无需额外训练即可适应新的时尚数据集和任务

多模态理解

同时理解时尚产品的视觉特征和文本描述

性能提升

基于laion/CLIP-ViT-B-32-laion2B-s34B-b79K检查点微调，性能优于原始OpenAI CLIP

模型能力

时尚产品图像分类

时尚产品文本匹配

跨模态检索

零样本学习

使用案例

电子商务

产品搜索

通过文本查询匹配相关时尚产品图像

提高搜索准确性和用户体验

产品推荐

基于视觉和文本特征的相似产品推荐

增强个性化推荐效果

时尚分析

趋势预测

分析时尚产品的视觉和文本特征变化

识别新兴时尚趋势

🚀 时尚CLIP模型卡片

时尚CLIP是一个基于CLIP的模型，旨在为时尚概念生成通用的产品表示。它利用OpenAI发布的预训练检查点，在大规模、高质量的时尚数据集上进行训练，以研究对类似CLIP的模型进行特定领域的微调，是否足以生成可零样本迁移到全新数据集和任务的产品表示。

🚀 快速开始

可通过以下链接快速了解和使用本模型：

✨ 主要特性

模型更新：于2023年3月10日更新模型，采用 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 检查点进行微调，得到性能更优的FashionCLIP 2.0版本。
性能提升：在多个基准测试中，FashionCLIP 2.0的加权宏F1分数均优于其他模型，如在FMNIST、KAGL和DEEP数据集上表现出色。
通用表示：能够生成通用的时尚产品表示，可零样本迁移到全新数据集和任务。

📚 详细文档

🔧 技术细节

模型更新说明

2023年3月更新模型，发现 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 检查点在时尚领域表现优于原始OpenAI CLIP。因此微调得到FashionCLIP 2.0，架构保持不变。推测性能提升得益于训练数据增加（是OpenAI CLIP数据的5倍）。

模型性能对比

模型	FMNIST	KAGL	DEEP
OpenAI CLIP	0.66	0.63	0.45
FashionCLIP	0.74	0.67	0.48
Laion CLIP	0.78	0.71	0.58
FashionCLIP 2.0	0.83	0.73	0.62

模型概述

FashionCLIP是基于CLIP的模型，用于生成时尚概念的通用产品表示。利用 OpenAI 发布的预训练检查点（ViT-B/32），在大型高质量时尚数据集上训练，研究特定领域微调是否能生成可零样本迁移的产品表示。该模型并非用于模型部署，研究人员需先结合具体场景研究其能力。

模型日期

2023年3月

模型类型

图像编码器：使用ViT-B/32 Transformer架构。
文本编码器：使用掩码自注意力Transformer。
训练方式：从预训练检查点开始，在包含800K产品的时尚数据集上，通过对比损失最大化（图像，文本）对的相似度。

📦 训练数据

模型在从Farfetch数据集获取的（图像，文本）对上进行训练。该数据集是英文数据集，包含超过800K时尚产品，有3K多个品牌，涵盖数十种物品类型。编码使用的图像是标准产品图像（白色背景、无人物），文本是Farfetch数据集中的亮点（如“条纹”、“长袖”、“阿玛尼”）和 简短描述（如“80年代风格T恤”）的拼接。

🔧 局限性、偏差和公平性

继承原模型局限性：承认FashionCLIP继承了原始CLIP模型的某些局限性和偏差，微调不会显著增加这些局限性。例如，时尚数据对性别概念有明确假设，不可避免地将服装与特定人群关联。
数据引入的局限性
- 文本模态：由于Farfetch数据集的大多数标题较长，FashionCLIP在长查询上可能比短查询表现更好。
- 图像模态：模型偏向标准产品图像（居中、白色背景）。
模型选择挑战：在微调过程中选择合适的停止标准仍是一个开放挑战。当需要跨领域泛化时，使用域内验证数据集的损失作为选择标准效果不佳，即使数据集相对多样且规模较大。

📄 许可证

本模型采用MIT许可证。

📖 引用

@Article{Chia2022,
    title="Contrastive language and vision learning of general fashion concepts",
    author="Chia, Patrick John
            and Attanasio, Giuseppe
            and Bianchi, Federico
            and Terragni, Silvia
            and Magalh{\~a}es, Ana Rita
            and Goncalves, Diogo
            and Greco, Ciro
            and Tagliabue, Jacopo",
    journal="Scientific Reports",
    year="2022",
    month="Nov",
    day="08",
    volume="12",
    number="1",
    abstract="The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from general and transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model adapted for the fashion industry. We demonstrate the effectiveness of the representations learned by FashionCLIP with extensive tests across a variety of tasks, datasets and generalization probes. We argue that adaptations of large pre-trained models such as CLIP offer new perspectives in terms of scalability and sustainability for certain types of players in the industry. Finally, we detail the costs and environmental impact of training, and release the model weights and code as open source contribution to the community.",
    issn="2045-2322",
    doi="10.1038/s41598-022-23052-9",
    url="https://doi.org/10.1038/s41598-022-23052-9"
}