CLIP-ViT-B-16-DataComp.XL-s13B-b90Kオープンソースモデル - 画像分類とテキスト検索を無料でサポート！

ホーム

CLIP ViT B 16 DataComp.XL S13b B90k

flavourによって開発

これはDataComp-1BデータセットでトレーニングされたCLIP ViT-L/14モデルで、ゼロショット画像分類と画像テキスト検索タスクをサポートします。

画像生成テキスト

Safetensors

オープンソースライセンス:MIT #ゼロショット画像分類 #マルチモーダル検索 #14億データでトレーニング

ダウンロード数 39.22k

リリース時間 : 7/27/2023

モデル概要

このモデルはOpenCLIPフレームワークを使用してDataComp-1Bデータセットでトレーニングされ、主にゼロショット画像分類とクロスモーダル検索タスクの研究に使用されます。

モデル特徴

大規模トレーニングデータ

DataComp-1Bデータセットの14億サンプルを使用してトレーニング

ゼロショット能力

微調整なしでさまざまな画像分類タスクを実行可能

クロスモーダル理解

画像とテキスト間の関連性を理解可能

モデル能力

ゼロショット画像分類

画像テキスト検索

クロスモーダル理解

使用事例

研究

ゼロショット画像分類研究

異なる分類体系下でのモデルのパフォーマンスを探索

ImageNet-1kで79.2%のゼロショットtop-1精度を達成

コンテンツ管理

画像検索

テキスト記述に基づいて関連画像を検索

🚀 CLIP ViT-L-14 DataComp-1B 訓練済みモデル

このプロジェクトは、OpenCLIPを用いてDataComp-1Bデータセットで訓練されたCLIP ViT-L/14モデルを提供します。ゼロショット画像分類や画像・テキスト検索などのタスクに利用できます。

🚀 クイックスタート

元のリポジトリ: https://huggingface.co/laion/CLIP-ViT-L-14-DataComp.XL-s13B-b90K

transformersのサポートが追加されています。

from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("marcusinthesky/CLIP-ViT-L-14-DataComp.XL-s13B-b90K")

✨ 主な機能

直接的な利用

ゼロショット画像分類
画像とテキストの検索

下流の利用

画像分類やその他の画像タスクのファインチューニング
線形プローブによる画像分類
画像生成のガイドと条件付け

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("marcusinthesky/CLIP-ViT-L-14-DataComp.XL-s13B-b90K")
processor = CLIPProcessor.from_pretrained("marcusinthesky/CLIP-ViT-L-14-DataComp.XL-s13B-b90K")

# 画像とテキストの入力
image = Image.open("your_image.jpg")
text = ["a cat", "a dog"]

# 入力の処理
inputs = processor(text=text, images=image, return_tensors="pt", padding=True)

# モデルの実行
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities

📚 ドキュメント

モデルの詳細

モデルの説明

OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、DataComp-1B (https://github.com/mlfoundations/datacomp) で訓練されたCLIP ViT-L/14モデルです。モデルの訓練は stability.ai のクラスタ上で行われました。

使用方法

このモデルは、研究コミュニティ向けの研究成果として意図されています。研究者がゼロショット、任意の画像分類をよりよく理解し、探索できるようにすることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも利用できることを期待しています。

直接的な利用

ゼロショット画像分類、画像とテキストの検索など。

下流の利用

画像分類やその他の画像タスクのファインチューニング、線形プローブによる画像分類、画像生成のガイドと条件付けなど。

範囲外の利用

OpenAIのモデルと同様に、現在、モデルのすべての展開されたユースケース（商用か否かに関係なく）は範囲外です。制約された環境での画像検索などの非展開ユースケースも、特定の固定クラス分類法でモデルの十分なドメイン内テストが行われていない限り、推奨されません。これは、CLIPの性能が異なるクラス分類法で変動することを考慮すると、タスク固有のテストが非常に必要であることが安全評価で示されたためです。このため、現在、未テストかつ制約されていないモデルの展開は、すべてのユースケースで潜在的に有害です。

監視や顔認識の分野に該当する特定のユースケースは、モデルの性能に関係なく、常に範囲外です。これは、このようなタスクに人工知能を使用することは、現在、公平な使用を保証するためのテスト基準やチェックが不足しているため、時期尚早である可能性があるためです。

訓練の詳細

訓練データ

このモデルは、DataComp-1Bデータセットの14億サンプルで訓練されました (https://arxiv.org/abs/2304.14108)。

⚠️ 重要提示

データセット作成の動機は、大規模なマルチモーダルモデルの訓練と、公開されたインターネットからクロールされた未整理の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的で使用することをお勧めします。この大規模データセットは未整理であることに注意してください。データセットの未整理な性質は、収集されたリンクが人間の閲覧者にとって非常に不快で不快なコンテンツにつながる可能性があることを意味します。したがって、デモリンクを使用する場合は、注意して自己責任で行ってください。独自に訓練したNSFW分類器を使用して安全タグに基づいてサンプルをフィルタリングすることで、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツがまだ存在する可能性を完全に排除することはできません。したがって、警告はそこでも有効です。我々は、このデータセットを幅広い研究や他の関心のあるコミュニティに公開することで、大規模モデルの訓練に伴う利点と、小さなコミュニティに限定された閉じた大規模データセットで作業する場合に報告されないままになる可能性のある落とし穴や危険性を透明に調査できるようになると考えています。ただし、このデータセットを公開することで、このリリースで奨励したい大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成に使用することはお勧めしません。

訓練手順

詳細は https://arxiv.org/abs/2304.14108 を参照してください。

評価

評価は38のデータセットで行われ、DataCompリポジトリと LAION CLIPベンチマークが使用されました。

テストデータ、要因、メトリクス

テストデータ

テストは38のデータセットのセットで行われました。詳細は論文を参照してください (https://arxiv.org/abs/2304.14108)。

結果

このモデルは、ImageNet-1kで79.2%のゼロショットトップ1精度を達成しました。詳細と結果は論文を参照してください (https://arxiv.org/abs/2304.14108)。

謝辞

このモデルの訓練に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。

引用

BibTeX形式

DataComp

@article{datacomp,
  title={DataComp: In search of the next generation of multimodal datasets},
  author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
  journal={arXiv preprint arXiv:2304.14108},
  year={2023}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIPソフトウェア

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}