🚀 モデルカード: Fashion CLIP
Fashion CLIPは、ファッションコンセプトの一般的な商品表現を生成するために開発されたCLIPベースのモデルです。このモデルは、新しいデータセットやタスクにゼロショット転送可能な商品表現を生成するためのドメイン固有の微調整の有効性を調査します。

📚 詳細ドキュメント
免責事項: このモデルカードは、こちらのモデルカードを参考にしています。
モデルの詳細
更新 (2023年3月10日): モデルを更新しました! laion/CLIP-ViT-B-32-laion2B-s34B-b79K のチェックポイント(Bin 氏に感謝!)が、ファッションに関して元のOpenAI CLIPよりも良好な性能を示すことがわかりました。そのため、アーキテクチャを変えずに、新しく(そしてより良い!)バージョンのFashionCLIP(以降、FashionCLIP 2.0)を微調整しました。laion/CLIP-ViT-B-32-laion2B-s34B-b79K
による性能向上は、学習データの増加(OpenAI CLIPデータの5倍)によるものと考えられます。ただし、私たちの 論文 の主張は変わりません - ファッションデータセットで laion/CLIP
を微調整することで、ベンチマーク全体でのゼロショット性能が向上します。以下の表は、各モデルの加重マクロF1スコアを比較したものです。
モデル |
FMNIST |
KAGL |
DEEP |
OpenAI CLIP |
0.66 |
0.63 |
0.45 |
FashionCLIP |
0.74 |
0.67 |
0.48 |
Laion CLIP |
0.78 |
0.71 |
0.58 |
FashionCLIP 2.0 |
0.83 |
0.73 |
0.62 |
FashionCLIPは、ファッションコンセプトの一般的な商品表現を生成するために開発されたCLIPベースのモデルです。OpenAI が公開した事前学習済みチェックポイント(ViT-B/32)を利用して、大規模で高品質な新しいファッションデータセットでFashionCLIPを学習させ、CLIPのようなモデルのドメイン固有の微調整が、まったく新しいデータセットやタスクにゼロショット転送可能な商品表現を生成するのに十分かどうかを調査します。FashionCLIPはモデルのデプロイを目的として開発されたものではありません - デプロイするには、研究者はまず、デプロイする特定のコンテキストに関連する能力を慎重に調査する必要があります。
モデルの作成日
2023年3月
モデルの種類
このモデルは、画像エンコーダとしてViT-B/32 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスクされた自己注意Transformerを使用します。これらのエンコーダは、事前学習済みのチェックポイントから始めて、80万個の商品を含むファッションデータセットでの対照損失を通じて、(画像, テキスト) ペアの類似度を最大化するように学習されます。
関連ドキュメント
📦 学習データ
このモデルは、Farfecthデータセット[^1 公式リリース待ち。] から取得した(画像、テキスト)ペアで学習されました。これは、80万を超えるファッション商品を含む英語のデータセットで、数十種類のオブジェクトタイプにまたがる3000以上のブランドが含まれています。エンコーディングに使用される画像は、標準的な商品画像で、白い背景の上に商品があり、人は写っていません。使用されるテキストは、Farfetchデータセットに含まれる ハイライト(例:「ストライプ」、「長袖」、「アルマーニ」)と 短い説明(「80年代スタイルのTシャツ」)の連結です。
🔧 制限事項、バイアス、公平性
FashionCLIPにはいくつかの制限があることを認識しており、元のCLIPモデルに存在する特定の制限やバイアスを引き継いでいると予想されます。私たちの微調整がこれらの制限を大幅に改善することは期待していません。私たちが使用するファッションデータは、「女性用の青い靴」のように、性別の概念に関する明示的な仮定を含んでおり、必然的に衣服の側面を特定の人と関連付けます。
調査によると、使用されるデータがFashionCLIPに特定の制限をもたらすことも示唆されています。テキストモダリティからは、Farfetchデータセットから派生したほとんどのキャプションが長いため、FashionCLIPは短いクエリよりも長いクエリでより高い性能を発揮する可能性があることが観察されています。画像モダリティからは、FashionCLIPは標準的な商品画像(中央配置、白い背景)に偏っています。
モデル選択、つまり微調整中の適切な停止基準の選択は、依然として未解決の課題です。ドメイン外の汎化(つまり、異なるデータセット間)が望まれる場合、ドメイン内(つまり、テストと同じ分布)の検証データセットでの損失を使用することは、選択基準として不十分であることが観察されています。たとえデータセットが比較的多様で大規模であっても同様です。
📄 引用
@Article{Chia2022,
title="Contrastive language and vision learning of general fashion concepts",
author="Chia, Patrick John
and Attanasio, Giuseppe
and Bianchi, Federico
and Terragni, Silvia
and Magalh{\~a}es, Ana Rita
and Goncalves, Diogo
and Greco, Ciro
and Tagliabue, Jacopo",
journal="Scientific Reports",
year="2022",
month="Nov",
day="08",
volume="12",
number="1",
abstract="The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from general and transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model adapted for the fashion industry. We demonstrate the effectiveness of the representations learned by FashionCLIP with extensive tests across a variety of tasks, datasets and generalization probes. We argue that adaptations of large pre-trained models such as CLIP offer new perspectives in terms of scalability and sustainability for certain types of players in the industry. Finally, we detail the costs and environmental impact of training, and release the model weights and code as open source contribution to the community.",
issn="2045-2322",
doi="10.1038/s41598-022-23052-9",
url="https://doi.org/10.1038/s41598-022-23052-9"
}