FashionCLIP開源視覺語言模型 - 免費部署生成時尚領域通用產品表徵

首頁

Fashion Clip

由patrickjohncyh開發

FashionCLIP是基於CLIP開發的視覺語言模型，專門針對時尚領域進行微調，能夠生成通用產品表徵。

文本生成圖像

Transformers

英語開源協議:MIT #時尚產品表徵 #零樣本遷移 #電商視覺搜索

下載量 3.8M

發布時間 : 2/21/2023

模型概述

該模型通過對比學習在包含80萬時尚產品的數據集上訓練，旨在為時尚概念生成通用產品表徵，支持零樣本遷移到新數據集和任務。

模型特點

時尚領域優化

在包含80萬時尚產品的專業數據集上微調，顯著提升時尚相關任務的性能

零樣本遷移能力

無需額外訓練即可適應新的時尚數據集和任務

多模態理解

同時理解時尚產品的視覺特徵和文本描述

性能提升

基於laion/CLIP-ViT-B-32-laion2B-s34B-b79K檢查點微調，性能優於原始OpenAI CLIP

模型能力

時尚產品圖像分類

時尚產品文本匹配

跨模態檢索

零樣本學習

使用案例

電子商務

產品搜索

通過文本查詢匹配相關時尚產品圖像

提高搜索準確性和用戶體驗

產品推薦

基於視覺和文本特徵的相似產品推薦

增強個性化推薦效果

時尚分析

趨勢預測

分析時尚產品的視覺和文本特徵變化

識別新興時尚趨勢

🚀 時尚CLIP模型卡片

時尚CLIP是一個基於CLIP的模型，旨在為時尚概念生成通用的產品表示。它利用OpenAI發佈的預訓練檢查點，在大規模、高質量的時尚數據集上進行訓練，以研究對類似CLIP的模型進行特定領域的微調，是否足以生成可零樣本遷移到全新數據集和任務的產品表示。

🚀 快速開始

可通過以下鏈接快速瞭解和使用本模型：

✨ 主要特性

模型更新：於2023年3月10日更新模型，採用 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 檢查點進行微調，得到性能更優的FashionCLIP 2.0版本。
性能提升：在多個基準測試中，FashionCLIP 2.0的加權宏F1分數均優於其他模型，如在FMNIST、KAGL和DEEP數據集上表現出色。
通用表示：能夠生成通用的時尚產品表示，可零樣本遷移到全新數據集和任務。

📚 詳細文檔

🔧 技術細節

模型更新說明

2023年3月更新模型，發現 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 檢查點在時尚領域表現優於原始OpenAI CLIP。因此微調得到FashionCLIP 2.0，架構保持不變。推測性能提升得益於訓練數據增加（是OpenAI CLIP數據的5倍）。

模型性能對比

模型	FMNIST	KAGL	DEEP
OpenAI CLIP	0.66	0.63	0.45
FashionCLIP	0.74	0.67	0.48
Laion CLIP	0.78	0.71	0.58
FashionCLIP 2.0	0.83	0.73	0.62

模型概述

FashionCLIP是基於CLIP的模型，用於生成時尚概念的通用產品表示。利用 OpenAI 發佈的預訓練檢查點（ViT-B/32），在大型高質量時尚數據集上訓練，研究特定領域微調是否能生成可零樣本遷移的產品表示。該模型並非用於模型部署，研究人員需先結合具體場景研究其能力。

模型日期

2023年3月

模型類型

圖像編碼器：使用ViT-B/32 Transformer架構。
文本編碼器：使用掩碼自注意力Transformer。
訓練方式：從預訓練檢查點開始，在包含800K產品的時尚數據集上，通過對比損失最大化（圖像，文本）對的相似度。

📦 訓練數據

模型在從Farfetch數據集獲取的（圖像，文本）對上進行訓練。該數據集是英文數據集，包含超過800K時尚產品，有3K多個品牌，涵蓋數十種物品類型。編碼使用的圖像是標準產品圖像（白色背景、無人物），文本是Farfetch數據集中的亮點（如“條紋”、“長袖”、“阿瑪尼”）和 簡短描述（如“80年代風格T恤”）的拼接。

🔧 侷限性、偏差和公平性

繼承原模型侷限性：承認FashionCLIP繼承了原始CLIP模型的某些侷限性和偏差，微調不會顯著增加這些侷限性。例如，時尚數據對性別概念有明確假設，不可避免地將服裝與特定人群關聯。
數據引入的侷限性
- 文本模態：由於Farfetch數據集的大多數標題較長，FashionCLIP在長查詢上可能比短查詢表現更好。
- 圖像模態：模型偏向標準產品圖像（居中、白色背景）。
模型選擇挑戰：在微調過程中選擇合適的停止標準仍是一個開放挑戰。當需要跨領域泛化時，使用域內驗證數據集的損失作為選擇標準效果不佳，即使數據集相對多樣且規模較大。

📄 許可證

本模型採用MIT許可證。

📖 引用

@Article{Chia2022,
    title="Contrastive language and vision learning of general fashion concepts",
    author="Chia, Patrick John
            and Attanasio, Giuseppe
            and Bianchi, Federico
            and Terragni, Silvia
            and Magalh{\~a}es, Ana Rita
            and Goncalves, Diogo
            and Greco, Ciro
            and Tagliabue, Jacopo",
    journal="Scientific Reports",
    year="2022",
    month="Nov",
    day="08",
    volume="12",
    number="1",
    abstract="The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from general and transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model adapted for the fashion industry. We demonstrate the effectiveness of the representations learned by FashionCLIP with extensive tests across a variety of tasks, datasets and generalization probes. We argue that adaptations of large pre-trained models such as CLIP offer new perspectives in terms of scalability and sustainability for certain types of players in the industry. Finally, we detail the costs and environmental impact of training, and release the model weights and code as open source contribution to the community.",
    issn="2045-2322",
    doi="10.1038/s41598-022-23052-9",
    url="https://doi.org/10.1038/s41598-022-23052-9"
}