metaclip-b32-400mオープンソースビジュアル言語モデル - 画像とテキストの共有埋め込み空間の構築

ホーム

Metaclip B32 400m

facebookによって開発

MetaCLIP基本モデルはCommonCrawlデータでトレーニングされた視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築します。

テキスト生成画像

Transformers

#ゼロショット画像分類 #クロスモーダル検索 #4億データでトレーニング

ダウンロード数 135.37k

リリース時間 : 10/7/2023

モデル概要

このモデルはMetaCLIP技術を4億のデータポイントに適用し、ゼロショット画像分類やテキストベースの画像検索などのタスクをサポートします。

モデル特徴

大規模データトレーニング

CommonCrawlの4億データポイントでトレーニングされ、強力な汎化能力を有する

ゼロショット学習能力

特定タスクのファインチューニングなしで多様な視覚タスクを実行可能

共有埋め込み空間

画像とテキストの統一表現空間を構築し、クロスモーダル検索をサポート

モデル能力

ゼロショット画像分類

テキストベースの画像検索

画像ベースのテキスト検索

クロスモーダル表現学習

使用事例

コンテンツ検索

画像検索エンジン

自然言語記述を使用して関連画像を検索

コンテンツ分類

ゼロショット画像分類

トレーニングなしで新規カテゴリの画像を分類

🚀 MetaCLIPモデル、ベースサイズ版、パッチ解像度32

MetaCLIPモデルは、CommonCrawl (CC) の4億個のデータポイントに適用されます。このモデルは、Xuらによる論文 Demystifying CLIP Data で紹介され、このリポジトリで最初に公開されました。

免責事項：MetaCLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

MetaCLIPモデルは、画像とテキストを共有埋め込み空間で関連付けることができます。これにより、ゼロショット画像分類、テキストベースの画像検索、画像ベースのテキスト検索などの機能が可能になります。

📚 ドキュメント

モデルの説明

論文 Demystifying CLIP Data は、CLIPのトレーニングデータキュレーション方法を明らかにすることを目的としています。OpenAIは、彼らのデータ準備パイプラインに関するコードをオープンソース化していません。

drawing

CLIPの概要。CLIP論文から引用。

想定される用途と制限

生のモデルを使用して、画像とテキストを共有埋め込み空間で関連付けることができます。これにより、ゼロショット画像分類、テキストベースの画像検索、画像ベースのテキスト検索などが可能になります。

使い方

ドキュメントを参照してください。ハブ上のモデル名を置き換えるだけです。

BibTeXエントリと引用情報

@misc{xu2023demystifying,
      title={Demystifying CLIP Data}, 
      author={Hu Xu and Saining Xie and Xiaoqing Ellen Tan and Po-Yao Huang and Russell Howes and Vasu Sharma and Shang-Wen Li and Gargi Ghosh and Luke Zettlemoyer and Christoph Feichtenhofer},
      year={2023},
      eprint={2309.16671},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}