オープンソースのmetaclip - b32 - fullcc2.5b視覚言語モデルを用いて、画像とテキストの共有埋め込み空間を構築する

ホーム

Metaclip B32 Fullcc2.5b

facebookによって開発

MetaCLIPはCommonCrawl(CC)の25億データポイントで訓練された視覚-言語モデルで、画像-テキスト共有埋め込み空間を構築します。

テキスト生成画像

Transformers

#ゼロショット画像分類 #クロスモーダル検索 #大規模事前学習

ダウンロード数 413

リリース時間 : 10/7/2023

モデル概要

このモデルはMetaチームによって開発され、CLIPの訓練データ選別方法を明らかにし、ゼロショット画像分類やテキストベースの画像検索などのタスクをサポートします。

モデル特徴

大規模データ訓練

CommonCrawlの25億データポイントで訓練され、幅広い視覚概念をカバー

オープンデータプロセス

初めてCLIPタイプモデルのデータ選別方法を公開し、透明性を向上

マルチモーダル埋め込み空間

統一された画像-テキスト埋め込み空間を構築し、クロスモーダル検索をサポート

モデル能力

ゼロショット画像分類

テキストベースの画像検索

画像ベースのテキスト検索

クロスモーダル特徴抽出

使用事例

コンテンツ検索

画像検索エンジン

自然言語記述を使用して関連画像を検索

インテリジェント分類

ゼロショット画像分類

特定の訓練なしで新しいカテゴリの画像を分類

🚀 MetaCLIPモデル、ベースサイズ版、パッチ解像度32

MetaCLIPモデルは、CommonCrawl (CC) の25億のデータポイントに適用されています。このモデルは、Xuらによる論文 Demystifying CLIP Data で紹介され、最初はこのリポジトリで公開されました。

免責事項: MetaCLIPを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

✨ 主な機能

MetaCLIPモデルは、画像とテキストを共有埋め込み空間で関連付けることができ、ゼロショット画像分類、テキストベースの画像検索、画像ベースのテキスト検索などの機能を可能にします。

📚 ドキュメント

モデルの説明

論文 Demystifying CLIP Data は、CLIPのトレーニングデータの選別方法を明らかにすることを目的としています。OpenAIは、彼らのデータ準備パイプラインに関するコードをオープンソース化していません。

drawing

CLIPの概要。CLIP論文より引用。

想定される用途と制限

生のモデルを使用して、画像とテキストを共有埋め込み空間で関連付けることができます。これにより、ゼロショット画像分類、テキストベースの画像検索、画像ベースのテキスト検索などが可能になります。

使い方

ドキュメントを参照してください。ハブ上のモデル名を置き換えるだけです。

BibTeXエントリと引用情報

@misc{xu2023demystifying,
      title={Demystifying CLIP Data}, 
      author={Hu Xu and Saining Xie and Xiaoqing Ellen Tan and Po-Yao Huang and Russell Howes and Vasu Sharma and Shang-Wen Li and Gargi Ghosh and Luke Zettlemoyer and Christoph Feichtenhofer},
      year={2023},
      eprint={2309.16671},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}