CLIP-ViT-B-32-laion2B-s34B-b79Kオープンソースビジュアル - 言語モデル、ゼロショット画像分類とクロスモーダル検索の実現

Home

CLIP ViT B 32 Laion2b S34b B79k

Developed by laion

OpenCLIPフレームワークを使用し、LAION-2B英語サブセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート

テキスト生成画像

Safetensors

Open Source License:MIT #ゼロショット画像分類 #マルチモーダル検索 #英語テキスト適応

Downloads 1.1M

Release Time : 9/14/2022

Model Overview

このモデルはCLIPアーキテクチャのバリアントで、ViT-B/32視覚エンコーダーを使用し、LAION-5Bの20億英語サンプルサブセットでトレーニングされました。主に研究コミュニティがゼロショット画像分類とクロスモーダル理解タスクを探求するために使用されます。

Model Features

ゼロショット学習能力

特定のタスクの微調整なしで画像分類タスクを実行可能

クロスモーダル理解

視覚とテキスト情報を同時に処理し、画像とテキストの関連付けを実現

大規模トレーニングデータ

LAION-2Bデータセットを使用し、20億の英語画像-テキストペアを含む

Model Capabilities

ゼロショット画像分類

画像-テキストマッチング

クロスモーダル検索

画像特徴抽出

Use Cases

研究応用

ゼロショット画像分類研究

未見カテゴリにおけるモデルの分類能力を探求

ImageNet-1kで66.6%のゼロショットtop-1精度を達成

クロスモーダル理解研究

視覚と言語モダリティ間の関連メカニズムを研究

潜在応用

画像検索システム

テキスト記述に基づいて関連画像を検索

コンテンツモデレーション支援

画像内の特定コンテンツを識別

🚀 CLIP ViT-B/32 - LAION-2B モデルカード

このモデルは、LAION-5Bの英語サブセットLAION-2Bを使用して訓練されたCLIP ViT-B/32モデルです。ゼロショット画像分類などの研究に役立つことを目的としています。

🚀 クイックスタート

以下のコードを使ってモデルを始めることができます。 ** TODO ** - Hugging Face transformers、OpenCLIP、およびtimmの使用開始コードスニペット

✨ 主な機能

直接的な利用

ゼロショット画像分類、画像とテキストの検索など。

下流の利用

画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドや条件付けなど。

📦 インストール

ドキュメントには明示的なインストール手順が記載されていません。

💻 使用例

ドキュメントには明示的なコード例が記載されていません。

📚 ドキュメント

モデルの詳細

モデルの説明

OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、LAION-5B (https://laion.ai/blog/laion-5b/) のLAION-2B英語サブセットで訓練されたCLIP ViT-B/32モデルです。モデルの訓練は、Romain Beaumontによって stability.ai クラスター上で行われました。

使用目的

元の OpenAI CLIPモデルカードに従い、このモデルは研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショット、任意の画像分類をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています。

OpenAI CLIP論文には、このような分析の例として、潜在的な下流の影響に関する議論が含まれています。さらに、LAION-5Bブログ (https://laion.ai/blog/laion-5b/) と今後の論文には、訓練データセットに関する追加の議論が含まれています。

範囲外の使用

OpenAIモデルに従い、

すべての モデルの展開されたユースケース - 商用か否かを問わず - は現在範囲外です。制約された環境での画像検索などの非展開ユースケースも、特定の固定クラス分類体系でモデルの十分なドメイン内テストが行われない限り、推奨されません。これは、私たちの安全性評価により、特にCLIPの性能が異なるクラス分類体系で変動することを考慮すると、タスク固有のテストが非常に必要であることが示されたためです。このため、現在、未テストで制約のないモデルの展開は、どのユースケースでも潜在的に有害です。

監視や顔認識の分野に該当する特定のユースケースは、モデルの性能に関係なく常に範囲外です。これは、このようなタスクに人工知能を使用することは、現在、公平な使用を保証するためのテスト基準やチェックが不足しているため、時期尚早である可能性があるためです。

このモデルは英語以外の言語で意図的に訓練または評価されていないため、その使用は英語のユースケースに限定する必要があります。

上記の注意事項に加え、これらのモデルの訓練に使用されるLAION-5Bデータセットには追加の考慮事項があります。詳細は以下を参照してください。

訓練の詳細

訓練データ

このモデルは、LAION-5B (https://laion.ai/blog/laion-5b/) の20億サンプルの英語サブセットで訓練されました。

⚠️ 重要提示

データセット作成の動機は、大規模なマルチモーダルモデルの訓練と、公開されたインターネットからクロールされた未加工の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、私たちの推奨は、このデータセットを研究目的で使用することです。この大規模データセットは未加工であることに注意してください。データセットの未加工な性質は、収集されたリンクが人間の閲覧者にとって非常に不快で不快なコンテンツにつながる可能性があることを意味します。したがって、デモリンクを使用する場合は注意して自己責任で行ってください。カスタマイズされた訓練済みNSFW分類器を使用して、サンプルを安全タグに基づいてフィルタリングすることで、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツがまだ存在する可能性を完全に排除することはできないため、警告は依然として有効です。私たちは、このデータセットを幅広い研究やその他の関心のあるコミュニティに公開することで、大規模モデルの訓練に伴う利点と、小さなコミュニティに限定された閉じた大規模データセットで作業する場合に報告されないままになる可能性のある落とし穴や危険性について、透明な調査を行うことができると考えています。ただし、このデータセットを公開しているものの、このリリースで奨励したい大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成にこのデータセットを使用することは推奨しません。

訓練手順

訓練ノートと wandbログを参照してください。

評価

評価は、LAION CLIPベンチマークスイートのコードを使用して行われました。

テストデータ、要因、メトリクス

テストデータ

テストは、分類にはVTAB+ (VTAB (https://arxiv.org/abs/1910.04867) と追加のロバストデータセットの組み合わせ) を、検索にはCOCOとFlickrを使用して行われます。

TODO - 詳細情報

結果

このモデルは、ImageNet-1kで66.6のゼロショットトップ1精度を達成しています。

初期のベンチマークは、より広範囲のデータセットで実行されており、現在は https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb で確認できます。

TODO - このモデルのメトリクスのみのテーブルを作成する。

謝辞

このモデルの訓練に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。

引用

BibTeX:

今後公開されるLAION-5B (https://laion.ai/blog/laion-5b/) 論文に加えて、以下を引用してください。

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIPソフトウェア

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}