metaclip-l14-400mオープンソース視覚 - 言語モデル - 画像とテキストの共有埋め込み空間の構築

ホーム

Metaclip L14 400m

facebookによって開発

MetaCLIPはCommonCrawlデータでトレーニングされた視覚-言語モデルで、画像とテキストの共有埋め込み空間を構築します。

テキスト生成画像

Transformers

#ゼロショット画像分類 #クロスモーダル検索 #大規模事前学習

ダウンロード数 325

リリース時間 : 10/9/2023

モデル概要

このモデルはCLIPのトレーニングデータ選別方法を分析し、画像とテキストの共有埋め込み空間を構築し、さまざまなクロスモーダルタスクをサポートします。

モデル特徴

大規模データトレーニング

CommonCrawlの4億データポイントでトレーニング

クロスモーダル理解

画像とテキストの共有埋め込み空間を構築

ゼロショット能力

特定タスクのトレーニング不要なゼロショット分類をサポート

モデル能力

画像分類

テキストから画像検索

画像からテキスト検索

クロスモーダル理解

使用事例

コンテンツ検索

テキストベースの画像検索

自然言語記述を使用して関連画像を検索

コンテンツ分類

ゼロショット画像分類

トレーニングなしで新規カテゴリの画像を分類

🚀 MetaCLIPモデル、大型バージョン、パッチ解像度14

MetaCLIPモデルは、CommonCrawl (CC) の4億のデータポイントに適用されています。このモデルは、Xuらによる論文 Demystifying CLIP Data で紹介され、最初はこのリポジトリで公開されました。

免責事項: MetaCLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

MetaCLIPモデルは、画像とテキストを共有埋め込み空間で関連付けるために使用できます。これにより、ゼロショット画像分類、テキストベースの画像検索、画像ベースのテキスト検索などのことが可能になります。

📚 ドキュメント

モデルの説明

論文 Demystifying CLIP Data は、CLIPのトレーニングデータキュレーション方法を明らかにすることを目的としています。OpenAIは、彼らのデータ準備パイプラインに関するコードをオープンソース化していません。

drawing

CLIPの概要。CLIP論文から引用。

想定される使用法と制限

生のモデルを使用して、共有埋め込み空間で画像とテキストを関連付けることができます。これにより、ゼロショット画像分類、テキストベースの画像検索、画像ベースのテキスト検索などが可能になります。

使い方

ドキュメントを参照してください。ハブ上のモデル名を置き換えるだけです。

BibTeXエントリと引用情報

@misc{xu2023demystifying,
      title={Demystifying CLIP Data}, 
      author={Hu Xu and Saining Xie and Xiaoqing Ellen Tan and Po-Yao Huang and Russell Howes and Vasu Sharma and Shang-Wen Li and Gargi Ghosh and Luke Zettlemoyer and Christoph Feichtenhofer},
      year={2023},
      eprint={2309.16671},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}