🚀 時尚CLIP模型卡
時尚CLIP是一個基於CLIP的模型,旨在為時尚概念生成通用的產品表示。它利用OpenAI發佈的預訓練檢查點(ViT - B/32),在一個大型、高質量的新型時尚數據集上進行訓練,以研究對類似CLIP的模型進行特定領域的微調,是否足以生成可零樣本遷移到全新數據集和任務的產品表示。

聲明:本模型卡改編自此處的模型卡。
📚 詳細文檔
✨ 主要特性
時尚CLIP利用OpenAI發佈的預訓練檢查點(ViT - B/32),在大型高質量時尚數據集上訓練,研究特定領域微調能否生成可零樣本遷移的產品表示。
📦 模型詳情
模型更新
更新時間(23年3月10日):我們更新了模型!發現laion/CLIP - ViT - B - 32 - laion2B - s34B - b79K檢查點(感謝Bin!)在時尚領域的表現優於原始的OpenAI CLIP。因此,我們微調了一個更新(且更好!)版本的FashionCLIP(以下簡稱FashionCLIP 2.0),同時保持架構不變。我們推測laion/CLIP - ViT - B - 32 - laion2B - s34B - b79K
帶來的性能提升是由於訓練數據增加(是OpenAI CLIP數據的5倍)。不過,我們的論文觀點不變 —— 在我們的時尚數據集上微調laion/CLIP
提高了跨基準測試的零樣本性能。見下表比較各模型的加權宏F1分數。
模型 |
FMNIST |
KAGL |
DEEP |
OpenAI CLIP |
0.66 |
0.63 |
0.45 |
FashionCLIP |
0.74 |
0.67 |
0.48 |
Laion CLIP |
0.78 |
0.71 |
0.58 |
FashionCLIP 2.0 |
0.83 |
0.73 |
0.62 |
模型概述
FashionCLIP是一個基於CLIP的模型,用於生成時尚概念的通用產品表示。它藉助OpenAI發佈的預訓練檢查點(ViT - B/32),在大型高質量的新型時尚數據集上進行訓練,研究對類似CLIP的模型進行特定領域的微調,是否足以生成可零樣本遷移到全新數據集和任務的產品表示。需要注意的是,FashionCLIP並非為模型部署而開發,研究人員若要進行部署,需先仔細研究其在特定部署環境中的能力。
模型日期
2023年3月
模型類型
該模型使用ViT - B/32 Transformer架構作為圖像編碼器,使用掩碼自注意力Transformer作為文本編碼器。這些編碼器從預訓練檢查點開始訓練,通過在包含800K個產品的時尚數據集上使用對比損失,最大化(圖像,文本)對的相似度。
📊 數據
該模型在從Farfetch數據集[^1 等待官方發佈。]獲得的(圖像,文本)對上進行訓練。這是一個英文數據集,包含超過800K件時尚產品,涉及3000多個品牌,涵蓋數十種物品類型。用於編碼的圖像是標準產品圖像,即物品在白色背景上的圖片,無人物。使用的文本是Farfetch數據集中的“亮點”(例如“條紋”、“長袖”、“阿瑪尼”)和“簡短描述”(如“80年代風格的T恤”)的拼接。
⚠️ 侷限性、偏差和公平性
我們承認FashionCLIP存在一定侷限性,並預計它繼承了原始CLIP模型的某些侷限性和偏差。我們認為微調不會顯著加劇這些侷限性:我們承認所使用的時尚數據對性別概念有明確假設,如“女士藍色鞋子”,這不可避免地將服裝方面與特定人群聯繫起來。
我們的研究還表明,所使用的數據給FashionCLIP帶來了一定侷限性。從文本模態來看,由於Farfetch數據集中的大多數標題較長,我們發現FashionCLIP在長查詢上的性能可能優於短查詢。從圖像模態來看,FashionCLIP也偏向於標準產品圖像(居中、白色背景)。
模型選擇,即在微調過程中選擇合適的停止標準,仍然是一個未解決的挑戰。我們發現,當需要進行跨領域泛化(即跨不同數據集)時,使用領域內(即與測試數據分佈相同)驗證數據集的損失作為選擇標準效果不佳,即使所使用的數據集相對多樣且規模較大。
📄 許可證
本模型採用MIT許可證。
📖 引用
@Article{Chia2022,
title="Contrastive language and vision learning of general fashion concepts",
author="Chia, Patrick John
and Attanasio, Giuseppe
and Bianchi, Federico
and Terragni, Silvia
and Magalh{\~a}es, Ana Rita
and Goncalves, Diogo
and Greco, Ciro
and Tagliabue, Jacopo",
journal="Scientific Reports",
year="2022",
month="Nov",
day="08",
volume="12",
number="1",
abstract="The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from general and transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model adapted for the fashion industry. We demonstrate the effectiveness of the representations learned by FashionCLIP with extensive tests across a variety of tasks, datasets and generalization probes. We argue that adaptations of large pre-trained models such as CLIP offer new perspectives in terms of scalability and sustainability for certain types of players in the industry. Finally, we detail the costs and environmental impact of training, and release the model weights and code as open source contribution to the community.",
issn="2045-2322",
doi="10.1038/s41598-022-23052-9",
url="https://doi.org/10.1038/s41598-022-23052-9"
}