CLIP-ViT-B-16-laion2B-s34B-b88Kオープンソースマルチモーダルモデル

ホーム

CLIP ViT B 16 Laion2b S34b B88k

laionによって開発

OpenCLIPフレームワークでトレーニングされたマルチモーダル視覚言語モデルで、LAION-2B英語データセットでトレーニングされ、ゼロショット画像分類タスクをサポートします

テキスト生成画像

Safetensors

オープンソースライセンス:MIT #ゼロショット画像分類 #マルチモーダル検索 #英語画像テキストマッチング

ダウンロード数 251.02k

リリース時間 : 1/3/2023

モデル概要

このCLIPモデルはViT-B/16アーキテクチャを採用し、対照学習を通じて画像とテキストの共同表現を実現し、ゼロショット画像分類、画像テキスト検索などのクロスモーダルタスクに使用できます

モデル特徴

大規模トレーニングデータ

LAION-5Bの20億英語サンプルのサブセットを使用してトレーニングされ、幅広い視覚概念をカバーしています

ゼロショット学習能力

微調整なしで新しいカテゴリ認識タスクに直接適用可能

クロスモーダルアライメント

対照学習を通じて画像とテキスト特徴の統一表現空間を実現

モデル能力

ゼロショット画像分類

画像テキスト類似度計算

クロスモーダル検索

画像特徴抽出

使用事例

コンピュータビジョン

オープンドメイン画像分類

自然言語記述を使用して画像を直接分類し、事前定義されたカテゴリ体系は不要

ImageNet-1kで70.2%のゼロショットtop-1精度を達成

情報検索

画像テキスト相互検索

テキストから画像、または画像からテキストへの双方向検索を実現

🚀 CLIP ViT-B/16 - LAION-2B のモデルカード

このモデルは、OpenCLIPを使用してLAION - 5BのLAION - 2B英語サブセットで学習されたCLIP ViT - B/16モデルです。ゼロショット画像分類などの研究に役立ちます。

🚀 クイックスタート

このモデルカードでは、CLIP ViT - B/16 - LAION - 2Bモデルの詳細、用途、学習情報、評価結果などについて説明します。

✨ 主な機能

ゼロショット画像分類
画像とテキストの検索
画像分類やその他の画像タスクの微調整
線形プローブ画像分類
画像生成のガイドと条件付け

📚 ドキュメント

🔍 モデルの詳細

モデルの説明

OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、LAION - 5B (https://laion.ai/blog/laion - 5b/) のLAION - 2B英語サブセットで学習されたCLIP ViT - B/16モデルです。モデルの学習はMehdi Chertiによって[JUWELS Booster](https://apps.fz - juelich.de/jsc/hps/juwels/booster - overview.html)スーパーコンピュータ上で行われました。詳細は「謝辞」を参照してください。

💡 用途

オリジナルの意図

元の[OpenAI CLIPモデルカード](https://github.com/openai/CLIP/blob/d50d76daa670286dd6cacf3bcd80b5e4823fc8e1/model - card.md)に従い、このモデルは研究コミュニティ向けの研究成果として意図されています。研究者がゼロショット、任意の画像分類をよりよく理解し、探索できるようにすることを期待しています。また、このようなモデルの潜在的な影響に関する学際的研究にも役立つことを期待しています。OpenAI CLIP論文には、この種の分析の例として潜在的な下流の影響に関する議論が含まれています。さらに、LAION - 5Bブログ (https://laion.ai/blog/laion - 5b/) と今後の論文には、学習データセットに関する追加の議論が含まれています。

直接的な用途

ゼロショット画像分類、画像とテキストの検索など。

下流の用途

画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドと条件付けなど。

範囲外の用途

OpenAIモデルと同様に、いかなるモデルの展開ユースケース（商用であるかどうかに関係なく）は現在のところ範囲外です。制約された環境での画像検索などの非展開ユースケースも、特定の固定クラス分類体系でモデルの十分なドメイン内テストが行われていない限り、推奨されません。これは、私たちの安全性評価により、特にCLIPの性能が異なるクラス分類体系で変動することを考慮すると、タスク固有のテストが非常に必要であることが示されているためです。このため、未テストかつ制約のないモデルの展開は、現在のところあらゆるユースケースで潜在的に有害です。また、監視や顔認識の分野に該当する特定のユースケースは、モデルの性能に関係なく常に範囲外です。これは、このようなタスクに人工知能を使用することは、公平な使用を保証するためのテスト基準とチェックが不足しているため、現時点では時期尚早である可能性があるためです。さらに、このモデルは英語以外の言語での学習や評価が行われていないため、その使用は英語のユースケースに限定する必要があります。

📈 学習の詳細

学習データ

このモデルは、LAION - 5B (https://laion.ai/blog/laion - 5b/) の20億サンプルの英語サブセットで学習されました。

⚠️ 重要提示

このデータセットの作成の動機は、大規模なマルチモーダルモデルの学習と、公開されたインターネットからクロールされた未整理の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的で使用することをお勧めします。この大規模データセットは未整理であることに注意してください。未整理なデータセットであるため、収集されたリンクが人間の閲覧者にとって非常に不快で不快なコンテンツにつながる可能性があります。したがって、デモリンクを使用する場合は注意して自己責任で行ってください。独自に学習したNSFW分類器を使用して安全タグに基づいてサンプルをフィルタリングすることで、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツがまだ存在する可能性を完全に排除することはできないため、警告は引き続き有効です。私たちは、このデータセットを幅広い研究やその他の関心のあるコミュニティに公開することで、大規模モデルの学習に伴う利点と、小規模なコミュニティに限定された閉じた大規模データセットで作業する場合に報告されないまま、または気づかれないままになる可能性のある落とし穴や危険を透明に調査することができると考えています。ただし、このデータセットを公開しているが、このリリースで促進したい大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成に使用することはお勧めしません。

学習手順

TODO

🧪 評価

評価は[LAION CLIPベンチマークスイート](https://github.com/LAION - AI/CLIP_benchmark)のコードを使用して行われました。

テストデータ、要因、メトリクス

テストデータ

テストは、分類にはVTAB+ (VTAB (https://arxiv.org/abs/1910.04867) と追加のロバストデータセットの組み合わせ) を、検索にはCOCOとFlickrを使用して行われました。

結果

このモデルは、ImageNet - 1kで70.2のゼロショットトップ1精度を達成しています。初期のベンチマークは、より広範なデータセットで実行されており、現在はhttps://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb で確認できます。

🙏 謝辞

ガウススーパーコンピューティングセンターe.V. (http://gauss - centre.eu) が、ユーリッヒスーパーコンピューティングセンター (JSC) のGCSスーパーコンピュータJUWELS Booster上で、ジョン・フォン・ノイマンコンピューティング研究所 (NIC) を通じてコンピューティング時間を提供することで、この部分の作業を資金提供していただいたことを感謝します。

📑 引用

BibTeX:

LAION - 5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIPソフトウェア

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}