🚀 ファッションCLIPモデルカード
FashionCLIPは、ファッションコンセプトの一般的な商品表現を生成するために開発されたCLIPベースのモデルです。このモデルは、新しいデータセットやタスクにゼロショット転移可能な商品表現を生成するために、ドメイン固有の微調整が十分かどうかを研究するために開発されました。

🚀 クイックスタート
このモデルの詳細な使い方やコード例は、FashionCLIPのGitHubリポジトリを参照してください。
✨ 主な機能
- CLIPベースのモデルで、ファッションコンセプトの一般的な商品表現を生成します。
- ドメイン固有の微調整により、新しいデータセットやタスクにゼロショット転移可能な商品表現を生成します。
📦 インストール
インストールに関する具体的な手順は、FashionCLIPのGitHubリポジトリを参照してください。
📚 ドキュメント
🔧 技術詳細
モデルの詳細
UPDATE (10/03/23): モデルを更新しました!laion/CLIP-ViT-B-32-laion2B-s34B-b79Kのチェックポイント(Binに感謝!)が、ファッションに関して元のOpenAI CLIPよりも良い結果を示すことがわかりました。そのため、アーキテクチャを変えずに、新しい(そしてより良い!)バージョンのFashionCLIP(以降FashionCLIP 2.0)を微調整しました。laion/CLIP-ViT-B-32-laion2B-s34B-b79K
による性能向上は、学習データの増加(OpenAI CLIPの5倍)によるものと考えられます。ただし、私たちの論文の主張は変わりません -- ファッションデータセットでlaion/CLIP
を微調整することで、ベンチマーク全体でゼロショット性能が向上しました。以下の表は、各モデルの加重マクロF1スコアを比較したものです。
モデル |
FMNIST |
KAGL |
DEEP |
OpenAI CLIP |
0.66 |
0.63 |
0.45 |
FashionCLIP |
0.74 |
0.67 |
0.48 |
Laion CLIP |
0.78 |
0.71 |
0.58 |
FashionCLIP 2.0 |
0.83 |
0.73 |
0.62 |
FashionCLIPは、ファッションコンセプトの一般的な商品表現を生成するために開発されたCLIPベースのモデルです。OpenAIが公開した事前学習済みのチェックポイント(ViT-B/32)を利用して、大規模で高品質な新しいファッションデータセットでFashionCLIPを学習させ、CLIPのようなモデルのドメイン固有の微調整が、まったく新しいデータセットやタスクにゼロショット転移可能な商品表現を生成するのに十分かどうかを調査しました。FashionCLIPはモデルのデプロイを目的として開発されたものではありません -- デプロイするには、研究者はまず、デプロイする特定のコンテキストに関連する機能を慎重に調査する必要があります。
モデルの日付
2023年3月
モデルのタイプ
このモデルは、画像エンコーダとしてViT-B/32 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスク自己注意Transformerを使用します。これらのエンコーダは、事前学習済みのチェックポイントから始めて、80万の商品を含むファッションデータセットで対照損失を通じて(画像、テキスト)ペアの類似度を最大化するように学習されます。
データ
このモデルは、Farfetchデータセット[^1 公式リリース待ち。]から取得した(画像、テキスト)ペアで学習されました。これは、80万を超えるファッション商品を含む英語のデータセットで、数十種類のオブジェクトタイプにわたる3000以上のブランドが含まれています。エンコーディングに使用される画像は、標準的な商品画像で、白い背景の上に人が写っていない商品の写真です。使用されるテキストは、Farfetchデータセットに含まれる ハイライト(例:「ストライプ」、「長袖」、「アルマーニ」)と 短い説明(「80年代スタイルのTシャツ」)の連結です。
制限事項、バイアス、公平性
私たちは、FashionCLIPには一定の制限があることを認識しており、元のCLIPモデルに存在する特定の制限やバイアスを引き継いでいると予想しています。私たちの微調整がこれらの制限を大幅に拡大することは期待していません -- 私たちが使用するファッションデータは、「女性用の青い靴」のように、性別の概念に関する明示的な仮定を行っており、必然的に衣服の側面を特定の人と関連付けます。
私たちの調査によると、使用するデータがFashionCLIPに特定の制限をもたらしていることが示唆されています。テキストモダリティに関しては、Farfetchデータセットから得られたほとんどのキャプションが長いため、FashionCLIPは短いクエリよりも長いクエリでより良い性能を発揮する可能性があることがわかりました。画像モダリティに関しては、FashionCLIPは標準的な商品画像(中央に配置され、白い背景)に偏っています。
モデル選択、つまり微調整中の適切な停止基準の選択は、依然として未解決の課題です。ドメイン外の汎化(つまり、異なるデータセット間)が望まれる場合、使用するデータセットが比較的多様で大規模であっても、ドメイン内(つまり、テストと同じ分布)の検証データセットでの損失を使用するのは、不適切な選択基準であることがわかりました。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
引用
@Article{Chia2022,
title="Contrastive language and vision learning of general fashion concepts",
author="Chia, Patrick John
and Attanasio, Giuseppe
and Bianchi, Federico
and Terragni, Silvia
and Magalh{\~a}es, Ana Rita
and Goncalves, Diogo
and Greco, Ciro
and Tagliabue, Jacopo",
journal="Scientific Reports",
year="2022",
month="Nov",
day="08",
volume="12",
number="1",
abstract="The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from general and transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model adapted for the fashion industry. We demonstrate the effectiveness of the representations learned by FashionCLIP with extensive tests across a variety of tasks, datasets and generalization probes. We argue that adaptations of large pre-trained models such as CLIP offer new perspectives in terms of scalability and sustainability for certain types of players in the industry. Finally, we detail the costs and environmental impact of training, and release the model weights and code as open source contribution to the community.",
issn="2045-2322",
doi="10.1038/s41598-022-23052-9",
url="https://doi.org/10.1038/s41598-022-23052-9"
}