オープンソースのMetaCLIP-b16-400m ビジュアル・ランゲージモデル - 画像とテキストの共有埋め込み空間の構築

ホーム

Metaclip B16 400m

facebookによって開発

MetaCLIPはCommonCrawlデータで訓練された視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築するために使用されます

テキスト生成画像

Transformers

#ゼロショット画像分類 #クロスモーダル検索 #CLIPデータ最適化

ダウンロード数 51

リリース時間 : 10/9/2023

モデル概要

このモデルはMetaCLIPフレームワークをCommonCrawlの4億データポイントに適用し、CLIP訓練データの選別方法を明らかにし、画像とテキストのクロスモーダル理解をサポートします

モデル特徴

公開データ訓練

CommonCrawl公開データセットを使用して訓練され、データの透明性が高い

クロスモーダル理解

視覚情報とテキスト情報を同時に処理し、共有埋め込み空間を構築できる

ゼロショット学習

特定のタスク訓練なしで新しいタスクを実行可能

モデル能力

ゼロショット画像分類

テキストに基づく画像検索

画像に基づくテキスト検索

クロスモーダル特徴抽出

使用事例

コンテンツ検索

画像検索エンジン

自然言語記述を使用して関連画像を検索

インテリジェントタグ付け

自動画像タグ付け

未タグ付け画像に記述的タグを生成

🚀 MetaCLIPモデル、ベースサイズ版、パッチ解像度16

MetaCLIPモデルはCommonCrawl（CC）の4億のデータポイントに適用されます。このモデルは、Xuらによる論文 Demystifying CLIP Data で紹介され、このリポジトリで最初に公開されました。

免責事項：MetaCLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

MetaCLIPモデルは、画像とテキストを共有埋め込み空間で関連付けることができ、ゼロショット画像分類やテキストベースの画像検索、画像ベースのテキスト検索などの機能を可能にします。

📚 ドキュメント

モデルの説明

論文 Demystifying CLIP Data は、CLIPのトレーニングデータの選別方法を明らかにすることを目的としています。OpenAIは、彼らのデータ準備パイプラインに関するコードをオープンソース化していません。

drawing

CLIPの概要。CLIP論文より引用。

想定用途と制限

生モデルを使用して、共有埋め込み空間で画像とテキストを関連付けることができます。これにより、ゼロショット画像分類、テキストベースの画像検索、画像ベースのテキスト検索などが可能になります。

使い方

ドキュメントを参照してください。ハブ上のモデル名を置き換えるだけです。

BibTeXエントリと引用情報

@misc{xu2023demystifying,
      title={Demystifying CLIP Data}, 
      author={Hu Xu and Saining Xie and Xiaoqing Ellen Tan and Po-Yao Huang and Russell Howes and Vasu Sharma and Shang-Wen Li and Gargi Ghosh and Luke Zettlemoyer and Christoph Feichtenhofer},
      year={2023},
      eprint={2309.16671},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}