CLIP - ViT - H - 14 - laion2B - s32B - b79Kオープンソースのビジュアル言語モデルで、画像分類とクロスモーダル検索をサポートします。

ホーム

CLIP ViT H 14 Laion2b S32b B79k

laionによって開発

OpenCLIPフレームワークを使用してLAION-2B英語データセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索タスクをサポートします

テキスト生成画像

Safetensors

オープンソースライセンス:MIT #ゼロショット画像分類 #マルチモーダル検索 #大規模事前学習

ダウンロード数 1.8M

リリース時間 : 9/14/2022

モデル概要

これはViT-H/14アーキテクチャを使用したCLIPモデルで、LAION-5Bの20億英語サブセットで特別にトレーニングされています。モデルは画像とテキストの関連性を理解し、ゼロショット画像分類とクロスモーダル検索を実現できます。

モデル特徴

大規模事前学習

LAION-2B大規模マルチモーダルデータセットでトレーニングされており、強力な汎化能力を持っています

ゼロショット能力

微調整なしで新しいカテゴリの画像分類タスクを実行できます

クロスモーダル理解

視覚情報とテキスト情報を同時に処理し、画像とテキストの関連付けを実現できます

モデル能力

ゼロショット画像分類

画像テキスト検索

クロスモーダル特徴抽出

画像分類微調整

使用事例

コンテンツ検索

画像検索エンジン

自然言語クエリを使用して関連画像を検索します

インテリジェント分類

動的画像分類

事前トレーニングなしで新しいカテゴリを分類できます

ImageNet-1kで78.0%のゼロショットtop-1精度を達成

創作支援

画像生成ガイダンス

生成モデルにテキスト条件付けガイダンスを提供します

🚀 CLIP ViT-H/14 - LAION-2B

このモデルは、OpenCLIPを使用してLAION-5Bの英語サブセットであるLAION-2Bで学習されたCLIP ViT-H/14モデルです。ゼロショット画像分類や画像・テキスト検索などのタスクに役立ちます。

🚀 クイックスタート

このモデルを使い始めるには、以下のコードを使用します。

** TODO ** - Hugging Face transformers、OpenCLIP、およびtimmのスタートガイドコード

✨ 主な機能

直接的な利用

ゼロショット画像分類
画像とテキストの検索

下流の利用

画像分類やその他の画像タスクの微調整
線形プローブ画像分類
画像生成のガイドと条件付け

📦 インストール

インストールに関する具体的な手順は、元のドキュメントに記載されていません。

📚 ドキュメント

モデルの詳細

このモデルは、OpenCLIP (https://github.com/mlfoundations/open_clip) を使用してLAION-5B (https://laion.ai/blog/laion-5b/) の20億サンプルの英語サブセットで学習されました。モデルの学習は、Romain Beaumontによって stability.ai クラスターで行われました。

利用目的

このモデルは、研究コミュニティ向けの研究成果として意図されています。研究者がゼロショット、任意の画像分類をよりよく理解し、探索できるようにすることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています。

学習の詳細

学習データ

このモデルは、LAION-5Bの20億サンプルの英語サブセットで学習されました。このデータセットは、大規模なマルチモーダルモデルの学習や、公開されたインターネットからクロールされた未加工の大規模データセットの取り扱いに関する研究と実験を民主化することを目的として作成されました。したがって、このデータセットは研究目的での使用を推奨します。この大規模データセットは未加工であることに注意してください。データセットの未加工な性質により、収集されたリンクは人間の視聴者にとって非常に不快で不快なコンテンツにつながる可能性があります。したがって、デモリンクを使用する場合は注意して自己責任で行ってください。独自に学習したNSFW分類器を使用して安全タグに基づいてサンプルをフィルタリングすることで、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツがまだ存在する可能性を完全に排除することはできないため、警告は有効です。このデータセットを幅広い研究やその他の関心のあるコミュニティに公開することで、大規模モデルの学習に伴う利点、および小規模なコミュニティに限定された閉じた大規模データセットで作業する場合に報告されないまま、または気づかれないままになる可能性のある落とし穴や危険を透明に調査することができます。ただし、このデータセットを公開しているが、このような大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成に使用することは推奨しません。

学習手順

詳細については、学習ノートと wandbログを参照してください。

評価

評価は、LAION CLIPベンチマークスイートのコードを使用して行われました。

テストデータ、要因、およびメトリクス

テストデータ

テストは、分類にはVTAB+ (VTAB (https://arxiv.org/abs/1910.04867) と追加のロバスト性データセットの組み合わせ) を、検索にはCOCOとFlickrを使用して行われます。

TODO - 詳細情報

結果

このモデルは、ImageNet-1kで78.0のゼロショットトップ1精度を達成しています。初期のベンチマークは、より広範なデータセットで実行されており、現在はhttps://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb で確認できます。

TODO - このモデルのメトリクスのみのテーブルを作成

謝辞

このモデルの学習に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。

引用

LAION-5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIPソフトウェア

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}