🚀 時尚CLIP模型卡片
時尚CLIP是一個基於CLIP的模型,旨在為時尚概念生成通用的產品表示。它利用OpenAI發佈的預訓練檢查點,在大規模、高質量的時尚數據集上進行訓練,以研究對類似CLIP的模型進行特定領域的微調,是否足以生成可零樣本遷移到全新數據集和任務的產品表示。
🚀 快速開始
可通過以下鏈接快速瞭解和使用本模型:
✨ 主要特性
- 模型更新:於2023年3月10日更新模型,採用 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 檢查點進行微調,得到性能更優的FashionCLIP 2.0版本。
- 性能提升:在多個基準測試中,FashionCLIP 2.0的加權宏F1分數均優於其他模型,如在FMNIST、KAGL和DEEP數據集上表現出色。
- 通用表示:能夠生成通用的時尚產品表示,可零樣本遷移到全新數據集和任務。
📚 詳細文檔
🔧 技術細節
模型更新說明
2023年3月更新模型,發現 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 檢查點在時尚領域表現優於原始OpenAI CLIP。因此微調得到FashionCLIP 2.0,架構保持不變。推測性能提升得益於訓練數據增加(是OpenAI CLIP數據的5倍)。
模型性能對比
模型 |
FMNIST |
KAGL |
DEEP |
OpenAI CLIP |
0.66 |
0.63 |
0.45 |
FashionCLIP |
0.74 |
0.67 |
0.48 |
Laion CLIP |
0.78 |
0.71 |
0.58 |
FashionCLIP 2.0 |
0.83 |
0.73 |
0.62 |
模型概述
FashionCLIP是基於CLIP的模型,用於生成時尚概念的通用產品表示。利用 OpenAI 發佈的預訓練檢查點(ViT-B/32),在大型高質量時尚數據集上訓練,研究特定領域微調是否能生成可零樣本遷移的產品表示。該模型並非用於模型部署,研究人員需先結合具體場景研究其能力。
模型日期
2023年3月
模型類型
- 圖像編碼器:使用ViT-B/32 Transformer架構。
- 文本編碼器:使用掩碼自注意力Transformer。
- 訓練方式:從預訓練檢查點開始,在包含800K產品的時尚數據集上,通過對比損失最大化(圖像,文本)對的相似度。
📦 訓練數據
模型在從Farfetch數據集獲取的(圖像,文本)對上進行訓練。該數據集是英文數據集,包含超過800K時尚產品,有3K多個品牌,涵蓋數十種物品類型。編碼使用的圖像是標準產品圖像(白色背景、無人物),文本是Farfetch數據集中的 亮點(如“條紋”、“長袖”、“阿瑪尼”)和 簡短描述(如“80年代風格T恤”)的拼接。
🔧 侷限性、偏差和公平性
- 繼承原模型侷限性:承認FashionCLIP繼承了原始CLIP模型的某些侷限性和偏差,微調不會顯著增加這些侷限性。例如,時尚數據對性別概念有明確假設,不可避免地將服裝與特定人群關聯。
- 數據引入的侷限性
- 文本模態:由於Farfetch數據集的大多數標題較長,FashionCLIP在長查詢上可能比短查詢表現更好。
- 圖像模態:模型偏向標準產品圖像(居中、白色背景)。
- 模型選擇挑戰:在微調過程中選擇合適的停止標準仍是一個開放挑戰。當需要跨領域泛化時,使用域內驗證數據集的損失作為選擇標準效果不佳,即使數據集相對多樣且規模較大。
📄 許可證
本模型採用MIT許可證。
📖 引用
@Article{Chia2022,
title="Contrastive language and vision learning of general fashion concepts",
author="Chia, Patrick John
and Attanasio, Giuseppe
and Bianchi, Federico
and Terragni, Silvia
and Magalh{\~a}es, Ana Rita
and Goncalves, Diogo
and Greco, Ciro
and Tagliabue, Jacopo",
journal="Scientific Reports",
year="2022",
month="Nov",
day="08",
volume="12",
number="1",
abstract="The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from general and transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model adapted for the fashion industry. We demonstrate the effectiveness of the representations learned by FashionCLIP with extensive tests across a variety of tasks, datasets and generalization probes. We argue that adaptations of large pre-trained models such as CLIP offer new perspectives in terms of scalability and sustainability for certain types of players in the industry. Finally, we detail the costs and environmental impact of training, and release the model weights and code as open source contribution to the community.",
issn="2045-2322",
doi="10.1038/s41598-022-23052-9",
url="https://doi.org/10.1038/s41598-022-23052-9"
}