CLIP-ViT-B-32-laion2B-s34B-b79Kオープンソース視覚-言語モデル - ゼロショット画像分類とクロスモーダル検索の実現

ホーム

CLIP ViT B 32 Laion2b S34b B79k

recallappによって開発

OpenCLIPフレームワークを使用し、LAION-2B英語データセットで訓練された視覚-言語モデル。ゼロショット画像分類とクロスモーダル検索をサポート

テキスト生成画像

Safetensors

オープンソースライセンス:MIT #ゼロショット画像分類 #マルチモーダル検索 #英語テキスト適応

ダウンロード数 17

リリース時間 : 1/12/2025

モデル概要

このモデルはCLIPアーキテクチャのバリアントで、ViT-B/32視覚エンコーダーを使用し、画像-テキストペアで対照学習により訓練されています。ファインチューニングなしでゼロショット画像分類とクロスモーダル検索タスクを実行可能です。

モデル特徴

ゼロショット学習能力

特定タスクのファインチューニングなしで新しいカテゴリの画像分類を実行可能

クロスモーダル理解

視覚情報とテキスト情報を共有埋め込み空間にマッピング可能

大規模訓練

LAION-2Bデータセット(20億の画像-テキストペア)で訓練

モデル能力

ゼロショット画像分類

画像-テキストマッチング

クロスモーダル検索

画像特徴抽出

使用事例

コンテンツ検索

テキストベースの画像検索

自然言語クエリを使用して関連画像を検索

画像分類

ゼロショット分類

訓練なしで新しいカテゴリを分類

ImageNet-1kで66.6%のゼロショットtop-1精度を達成

🚀 CLIP ViT-B/32 - LAION-2B

このモデルは、研究コミュニティ向けの研究成果で、ゼロショット、任意の画像分類の理解と探索を支援します。また、このモデルの潜在的な影響に関する学際的研究にも役立つことを期待しています。

🚀 クイックスタート

このモデルを使用するには、以下のコードを参考にしてください。 ** TODO ** - Hugging Face transformers、OpenCLIP、およびtimmの使用開始コードスニペット

✨ 主な機能

直接的な利用

ゼロショット画像分類、画像とテキストの検索など。

下流の利用

画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドと条件付けなど。

📦 インストール

READMEにインストール手順に関する具体的な内容が記載されていないため、このセクションをスキップします。

💻 使用例

READMEに使用例に関する具体的なコードが記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデルの詳細

CLIP ViT-B/32モデルは、OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、LAION-5B (https://laion.ai/blog/laion-5b/) の英語サブセットであるLAION-2Bで学習されました。モデルの学習は、Romain Beaumontによって stability.ai クラスターで行われました。

利用目的

OpenAI CLIPモデルと同様に、このモデルは研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショット、任意の画像分類をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的研究にも役立つことを期待しています。

スコープ外の利用

OpenAIモデルと同様に、現在、モデルのすべての展開された利用ケース（商用か否かを問わない）はスコープ外です。制約された環境での画像検索などの非展開の利用ケースも、特定の固定クラス分類体系でモデルの十分なドメイン内テストが行われていない限り、推奨されません。これは、CLIPの性能が異なるクラス分類体系で変動するため、タスク固有のテストが必要であることが安全性評価で示されているためです。このため、未テストで制約のないモデルの展開は、現在のところ、あらゆる利用ケースで潜在的に有害です。

監視や顔認識の分野に該当する特定の利用ケースは、モデルの性能に関係なく、常にスコープ外です。これは、このようなタスクに人工知能を使用することは、公平な使用を保証するためのテスト基準やチェックが不足しているため、現時点では時期尚早です。

このモデルは英語以外の言語での学習や評価が行われていないため、その使用は英語の利用ケースに限定する必要があります。

学習の詳細

学習データ

このモデルは、LAION-5B (https://laion.ai/blog/laion-5b/) の20億サンプルの英語サブセットで学習されました。

⚠️ 重要な注意

データセット作成の動機は、大規模なマルチモーダルモデルの学習と、公開されたインターネットからクロールされた未加工の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的で使用することを推奨します。この大規模データセットは未加工であることに注意してください。データセットの未加工な性質により、収集されたリンクが人間の閲覧者にとって非常に不快で不快なコンテンツにつながる可能性があることを覚えておいてください。したがって、デモリンクを使用する場合は、注意して自己責任で行ってください。独自に学習したNSFW分類器を使用してサンプルをフィルタリングすることで、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツが存在する可能性を完全に排除することはできません。このデータセットを幅広い研究やその他の関心のあるコミュニティに公開することで、大規模モデルの学習に伴う利点と、小規模なコミュニティに限定された閉じた大規模データセットで作業する際に報告されないまま、または見過ごされる可能性のある落とし穴や危険性について、透明性の高い調査が可能になると考えています。ただし、このデータセットをそのまま産業用製品の作成に使用することは推奨しません。このリリースで促進したい、このような大規模モデルの一般的な特性と安全性に関する基礎研究はまだ進行中です。

学習手順

詳細については、学習ノートと wandbログを参照してください。

評価

評価は、LAION CLIPベンチマークスイートのコードを使用して行われました。

テストデータ、要因、メトリクス

テストデータ

テストは、分類にはVTAB+（VTAB (https://arxiv.org/abs/1910.04867) と追加のロバストデータセットの組み合わせ）、検索にはCOCOとFlickrを使用して行われます。 TODO - 詳細情報

結果

このモデルは、ImageNet-1kで66.6のゼロショットトップ1精度を達成しています。

初期のベンチマークは、より広範なデータセットで実行されており、現在はhttps://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb で確認できます。 TODO - このモデルのメトリクスのみのテーブルを作成する。

🔧 技術詳細

READMEに技術的な詳細説明が50文字以上記載されていないため、このセクションをスキップします。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

謝辞

このモデルの学習に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。

引用

BibTeX:

公開予定のLAION-5B (https://laion.ai/blog/laion-5b/) の論文に加えて、以下を引用してください。

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIPソフトウェア

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}