CLIP-ViT-H-14-laion2B-s32B-b79Kオープンソースモデル - ゼロショット画像分類とクロスモーダル検索をサポート

Home

CLIP ViT H 14 Laion2b S32b B79k

Developed by ModelsLab

これはOpenCLIPフレームワークに基づき、LAION-2B英語サブセットで訓練された視覚言語モデルで、ゼロショット画像分類やクロスモーダル検索タスクに優れています。

テキスト生成画像

Safetensors

Open Source License:MIT #ゼロショット画像分類 #マルチモーダル検索 #大規模事前学習

Downloads 132

Release Time : 1/16/2025

Model Overview

このモデルはCLIPアーキテクチャを採用し、対照学習によって画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類、画像テキスト検索などのタスクをサポートします。

Model Features

大規模訓練データ

LAION-5Bの20億英語サンプルサブセットを使用して訓練され、幅広い視覚概念をカバーしています

ゼロショット能力

微調整なしで新しいカテゴリの画像分類タスクを実行可能

クロスモーダル理解

画像とテキストを同時に理解し、画像-テキストマッチングと検索をサポート

Model Capabilities

ゼロショット画像分類

画像テキスト検索

クロスモーダル埋め込み学習

画像内容理解

Use Cases

コンピュータビジョン

ゼロショット画像分類

訓練データなしで画像を分類

ImageNet-1kで78.0%のゼロショットtop-1精度を達成

画像検索

テキストクエリに基づいて関連画像を検索

COCOとFlickrデータセットで良好な性能

研究応用

マルチモーダル研究

視覚言語表現学習の研究に使用

モデル微調整基盤

下流タスクの事前訓練モデルとして

🚀 CLIP ViT-H/14 - LAION-2Bのモデルカード

このモデルは、OpenCLIPを使用してLAION-5BのLAION-2B英語サブセットで学習されたCLIP ViT-H/14モデルです。研究コミュニティによるゼロショット、任意の画像分類の研究や探索に役立つことを目指しています。

📋 モデルの詳細

モデルの説明

OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、LAION-5B (https://laion.ai/blog/laion-5b/) のLAION-2B英語サブセットで学習されたCLIP ViT-H/14モデルです。モデルの学習は、Romain Beaumontによって stability.ai クラスターで行われました。

📖 用途

オリジナルのOpenAI CLIPモデルカードに基づく

このモデルは、研究コミュニティ向けの研究成果として意図されています。研究者がゼロショット、任意の画像分類をよりよく理解し、探索するのを可能にすることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています。

OpenAI CLIP論文には、このような分析の例として、潜在的な下流の影響に関する議論が含まれています。さらに、LAION-5Bブログ (https://laion.ai/blog/laion-5b/) と今後の論文には、学習データセットに関する追加の議論が含まれています。

直接的な使用

ゼロショット画像分類、画像とテキストの検索など。

下流の使用

画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドと条件付けなど。

範囲外の使用

OpenAIモデルと同様に、

すべての モデルの展開されたユースケース（商用か否かを問わない）は、現在のところ範囲外です。制約された環境での画像検索などの非展開ユースケースも、特定の固定クラス分類法でモデルの十分なドメイン内テストが行われない限り、推奨されません。これは、CLIPの性能が異なるクラス分類法で変動するため、タスク固有のテストが非常に必要であることが安全性評価で示されたためです。このため、未テストかつ制約されていないモデルの展開は、現在のところすべてのユースケースで潜在的に有害です。

監視や顔認識の分野に該当する特定のユースケースは、モデルの性能に関係なく、常に範囲外です。これは、このようなタスクに人工知能を使用することは、公平な使用を保証するためのテスト基準やチェックが不足しているため、現在のところ時期尚早であると考えられるためです。

このモデルは英語以外の言語での学習や評価が行われていないため、英語のユースケースに限定して使用する必要があります。

上記の注意事項に加えて、これらのモデルの学習に使用されたLAION-5Bデータセットには、追加の考慮事項があります。詳細は下記を参照してください。

📈 学習の詳細

学習データ

このモデルは、LAION-5Bの20億サンプルの英語サブセットで学習されました (https://laion.ai/blog/laion-5b/)。

⚠️ 重要な注意

このデータセットの作成の動機は、大規模なマルチモーダルモデルの学習と、公開されたインターネットからクロールされた未加工の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的で使用することを推奨します。この大規模データセットは未加工であることに注意してください。データセットの未加工な性質は、収集されたリンクが人間の視聴者にとって非常に不快で嫌な内容につながる可能性があることを意味します。したがって、デモリンクを使用する場合は、注意して自己責任で行ってください。独自に学習したNSFW分類器を使用してサンプルをフィルタリングすることで、「安全な」サブセットを抽出することができます。これにより、閲覧時に潜在的に有害な内容に遭遇する可能性が大幅に減少しますが、安全モードでも有害な内容がまだ存在する可能性を完全に排除することはできません。したがって、そこでも警告が有効です。私たちは、このデータセットを幅広い研究やその他の関心のあるコミュニティに公開することで、大規模モデルの学習に伴う利点と、小さなコミュニティに限定された閉じた大規模データセットを使用する際に報告されないままになる可能性のある落とし穴や危険性について、透明な調査が可能になると考えています。ただし、このデータセットを公開しているからといって、このリリースで促進したい大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成にこのデータセットを使用することは推奨しません。

学習手順

詳細は学習ノートと wandbログを参照してください。

🧪 評価

評価は、LAION CLIPベンチマークスイートのコードを使用して行われました。

テストデータ、要因、メトリクス

テストデータ

テストは、分類にはVTAB+ (VTAB (https://arxiv.org/abs/1910.04867) と追加のロバストデータセットの組み合わせ) を、検索にはCOCOとFlickrを使用して行われます。

TODO - 詳細情報

結果

このモデルは、ImageNet-1kで78.0のゼロショットトップ1精度を達成しています。

より広範なデータセットでの初期のベンチマークが行われており、現在はhttps://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb で確認できます。

TODO - このモデルのメトリクスのみのテーブルを作成する。

🙏 謝辞

このモデルの学習に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。

📚 引用

BibTeX

LAION-5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIPソフトウェア

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}