CLIP - ViT - B - 16 - DataComp.XL - s13B - b90Kオープンソースモデル - ゼロショット画像分類と画像・テキスト検索をサポート！

ホーム

CLIP ViT B 16 DataComp.XL S13b B90k

laionによって開発

これはDataComp-1BデータセットでOpenCLIPを使用して訓練されたCLIP ViT-B/16モデルで、主にゼロショット画像分類と画像テキスト検索に使用されます。

テキスト生成画像オープンソースライセンス:MIT #ゼロショット画像分類 #マルチモーダル検索 #大規模事前学習

ダウンロード数 4,461

リリース時間 : 5/15/2023

モデル概要

このモデルはCLIPアーキテクチャに基づいており、大規模なマルチモーダル訓練を通じてゼロショット画像分類能力を実現し、クロスモーダル検索タスクをサポートします。

モデル特徴

大規模マルチモーダル訓練

DataComp-1Bデータセットの14億サンプルを使用して訓練されており、強力な汎化能力を持っています。

ゼロショット学習能力

特定のタスクのファインチューニングなしで、ゼロショット画像分類などのさまざまな視覚タスクを実行できます。

クロスモーダル理解

画像とテキスト間の意味的関連性を理解でき、クロスモーダル検索タスクをサポートします。

モデル能力

ゼロショット画像分類

画像テキスト検索

クロスモーダル理解

画像特徴抽出

使用事例

コンピュータビジョン

ゼロショット画像分類

訓練なしで画像を分類でき、カスタム分類体系をサポートします。

ImageNet-1kで73.5%のゼロショットtop-1精度を達成

画像検索

テキスト記述に基づいて関連画像を検索したり、画像に基づいて関連テキストを検索したりできます。

研究応用

マルチモーダル研究

視覚言語モデルの表現学習とクロスモーダル理解の研究に使用されます。

🚀 CLIP ViT-B-16 trained DataComp-1B のモデルカード

このモデルは、DataComp-1Bを用いて訓練されたCLIP ViT-B/16モデルで、ゼロショット画像分類に利用できます。研究コミュニティ向けの研究成果として提供されています。

🚀 クイックスタート

モデルの使い始め方については、こちらを参照してください。

✨ 主な機能

ゼロショット画像分類
画像とテキストの検索
画像分類やその他の画像タスクの微調整
線形プローブ画像分類
画像生成のガイドと条件付け

📦 インストール

ドキュメントに具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

ドキュメントに具体的なコード例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

🔍 モデルの詳細

モデルの説明

このモデルは、OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、DataComp-1B (https://github.com/mlfoundations/datacomp) で訓練されたCLIP ViT-B/16モデルです。モデルの訓練は stability.ai のクラスター上で行われました。

📖 用途

直接の用途

ゼロショット画像分類、画像とテキストの検索など。

下流の用途

画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドと条件付けなど。

範囲外の用途

OpenAIのモデルと同様に、現在、モデルのすべての展開されたユースケース（商用か否かに関わらず）は範囲外です。制約された環境での画像検索などの非展開ユースケースも、特定の固定クラス分類体系でモデルの十分なドメイン内テストが行われていない限り、推奨されません。これは、CLIPの性能が異なるクラス分類体系で変動するため、タスク固有のテストが必要であることが安全性評価で示されているためです。このため、未テストで制約のないモデルの展開は、現在のところ潜在的に有害です。

監視や顔認識の分野に該当する特定のユースケースは、モデルの性能に関係なく、常に範囲外です。これは、このようなタスクに人工知能を使用することは、公平な使用を保証するためのテスト基準やチェックが不足しているため、現時点では時期尚早であると考えられるためです。

📋 訓練の詳細

訓練データ

このモデルは、DataComp-1Bデータセット (https://arxiv.org/abs/2304.14108) の14億個のサンプルを使用して訓練されました。

⚠️ 重要提示

このデータセットの作成の動機は、大規模なマルチモーダルモデルの訓練と、公開されたインターネットからクロールされた未精選の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的で使用することをお勧めします。この大規模データセットは未精選であることに注意してください。収集されたリンクが人間の視聴者にとって非常に不快で不快なコンテンツにつながる可能性があることを覚えておいてください。したがって、デモリンクを使用する場合は、注意して自己責任で使用してください。独自に訓練したNSFW分類器を使用して安全タグに基づいてサンプルをフィルタリングすることで、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツがまだ存在する可能性を完全に排除することはできません。したがって、そこでも警告が適用されます。我々は、このデータセットを幅広い研究やその他の関心のあるコミュニティに公開することで、大規模モデルの訓練に伴う利点と、小規模なコミュニティに制限された閉じた大規模データセットで作業する場合に報告されないままになる可能性のある落とし穴や危険性について透明性の高い調査が可能になると考えています。ただし、このデータセットを公開することで、我々はそれをすぐに使える産業用製品の作成に使用することを推奨しません。このリリースで促進したい大規模モデルの一般的な特性と安全性に関する基礎研究はまだ進行中です。

訓練手順

詳細はこちらを参照してください。

📊 評価

DataCompリポジトリと LAION CLIPベンチマークを使用して、38のデータセットで評価が行われました。

テストデータ、要因、メトリクス

テストデータ

テストは38のデータセットのセットで行われました。詳細については、我々の論文 (https://arxiv.org/abs/2304.14108) を参照してください。

結果

このモデルは、ImageNet-1kで73.5%のゼロショットトップ1精度を達成しています。詳細と結果については、我々の論文 (https://arxiv.org/abs/2304.14108) を参照してください。

🙏 謝辞

このモデルの訓練に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。

📝 引用

DataComp

@article{datacomp,
  title={DataComp: In search of the next generation of multimodal datasets},
  author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
  journal={arXiv preprint arXiv:2304.14108},
  year={2023}
}

OpenAI CLIP paper

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP software

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}