CLIP - convnext_large_dオープンソースモデル - 無料でデプロイしてゼロショット画像分類と画像テキスト検索を実現

ホーム

CLIP Convnext Large D.laion2b S26b B102k Augreg

laionによって開発

LAION-2Bデータセットでトレーニングされた大規模ConvNeXt-Large CLIPモデル、ゼロショット画像分類と画像テキスト検索タスクをサポート

テキスト生成画像

TensorBoard

オープンソースライセンス:MIT #ゼロショット画像分類 #ConvNeXtアーキテクチャ #大規模事前学習

ダウンロード数 80.74k

リリース時間 : 1/29/2023

モデル概要

このモデルはConvNeXt-Largeアーキテクチャを採用し、強化されたデータ拡張と正則化技術でトレーニングされ、ImageNetゼロショット分類タスクで75.9%の精度を達成

モデル特徴

ConvNeXtアーキテクチャの革新

大規模トレーニングされた最初のConvNeXt CLIPモデルで、従来のViTアーキテクチャに比べて計算効率が大幅に向上

強化されたデータ拡張

ランダムスケールクロップ(RRC)、ランダム消去(RE)、ランダム深度(SD)などの先進的な正則化技術を採用し、モデルの堅牢性を向上

効率的なトレーニング

256解像度でViT-L/16の半分の計算量のみでより高い性能を実現

モデル能力

ゼロショット画像分類

画像テキスト類似度計算

クロスモーダル検索

使用事例

画像理解

ゼロショット画像分類

ファインチューニングなしで新しい画像を分類可能

ImageNet-1kゼロショット精度75.9%

クロスモーダル検索

画像テキスト検索

テキストに基づいて関連画像を検索、または画像から説明を生成

🚀 CLIP - convnext_large_d.laion2B - s26B - b102K - augreg

このモデルは、LAION - 2B (英語) という LAION - 5B のサブセットを使用して、OpenCLIP を用いて学習された一連のCLIP ConvNeXt - Large モデルです。ViTやResNetに代わる、モデルサイズと画像解像度に対して良好にスケーリングするCLIPモデルの探索を目的としています。

🚀 クイックスタート

このモデルは、ゼロショット画像分類や画像・テキスト検索などのタスクに使用できます。詳細な使用方法については、以下のセクションを参照してください。

✨ 主な機能

ゼロショット画像分類、画像とテキストの検索などのタスクに対応
画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドや条件付けなどの下流タスクにも利用可能

📦 インストール

このモデルは、OpenCLIP を用いて学習されています。必要な依存関係をインストールすることで、モデルを使用できます。

トレーニングスクリプトの実行例

256x256のモデルを学習する場合は、以下のSlurmスクリプトを使用します。

/opt/slurm/sbin/srun --cpu_bind=v --accel-bind=gn python -m training.main \
    --save-frequency 1 \
    --name "convnext_large_256" \
    --resume 'latest' \
    --train-data="pipe:aws s3 cp s3://mybucket/path/{laion{00000..xxxxx}.tar -" \
    --train-num-samples 203666042 \
    --dataset-type webdataset \
    --precision amp_bfloat16 \
    --beta2 0.98 \
    --warmup 10000 \
    --batch-size=800 \
    --epochs=128 \
    --dataset-resampled \
    --aug-cfg use_timm=True scale='(0.33, 1.0)' re_prob=0.35 \
    --clip-grad-norm 5.0 \
    --lr 1.667e-3 \
    --workers=6 \
    --model "convnext_large_d" \
    --seed 0 \
    --ddp-static-graph \
    --local-loss \
    --gather-with-grad \
    --grad-checkpointing

💻 使用例

基本的な使用法

このモデルは、ゼロショット画像分類や画像・テキスト検索などのタスクに使用できます。具体的なコード例は、LAION CLIP Benchmark suite を参照してください。

📚 ドキュメント

モデル詳細

モデル説明

このモデルは、LAION - 2B (英語) という LAION - 5B のサブセットを使用して、OpenCLIP を用いて学習された一連のCLIP ConvNeXt - Large モデルです。

目標: ViTやResNetに代わる、モデルサイズと画像解像度に対して良好にスケーリングするCLIPモデルの探索
最初の試み: CLIP ViT - L/16、ViT - L14、RN50x16の範囲で大規模に学習された最初のConvNeXt CLIPモデル。画像タワーの拡張と正則化の増加を探索した最初の公開モデルウェイト

モデルの構成:

画像タワーには、timm のConvNeXt - Largeモデル (convnext_large) を使用
ビジョンタワーには、他のCLIPモデルの単一投影の代わりにMLP (fc - gelu - drop - fc) ヘッドを使用
テキストタワーは、ViT - L / RN50x16モデルよりも同じ幅で4層深い (深さ16、埋め込み次元768)

モデルは、256x256 (384バリアントの開発中) の画像解像度で学習されています。256x256では、ConvNext - Large - Dは、以前のLAION - 2Bで学習されたL/14モデルよりも約1/2の学習FLOPで、より高い精度を達成しました。

モデル	データセット	解像度	AugReg	ImageNetゼロショットTop - 1 (%)
[convnext_large_d.laion2b_s26b_b102k - augreg](https://huggingface.co/laion/CLIP - convnext_large_d.laion2B - s26B - b102K - augreg)	LAION - 2B	256x256	RRC (0.33, 1.0), RE (0.35), SD (0.1), D(0.1)	75.9
[convnext_large_d_320.laion2b_s29b_b131k - ft](https://huggingface.co/laion/CLIP - convnext_large_d_320.laion2B - s29B - b131K - ft)	LAION - 2B	320x320	RRC (0.5, 1.0), RE (0.4), SD (0.1), D(0.0)	76.6
[convnext_large_d_320.laion2b_s29b_b131k - ft - soup](https://huggingface.co/laion/CLIP - convnext_large_d_320.laion2B - s29B - b131K - ft - soup)	LAION - 2B	320x320	RRC (0.5, 1.0), RE (0.4), SD (0.1), D(0.0)	76.9

RRC = ランダムリサイズクロップ (クロップ割合), RE = ランダム消去 (確率), SD = 確率的深さ (確率) -- 画像タワーのみ, D = ドロップアウト (確率) -- 画像タワーヘッドのみ

LAION - A = LAION Aesthetic、pHashデデュプリケーションと美学スコアフィルタリングを行ったLAION - 2Bの約9億サンプルのサブセット。

モデルの学習は、Ross Wightmanによって stability.ai クラスターで行われました。

用途

直接的な使用

ゼロショット画像分類、画像とテキストの検索など。

下流の使用

画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドや条件付けなど。

範囲外の使用

元の [OpenAI CLIPモデルカード](https://github.com/openai/CLIP/blob/d50d76daa670286dd6cacf3bcd80b5e4823fc8e1/model - card.md) に従い、このモデルの すべての 展開されたユースケース (商用または非商用) は現在の範囲外です。制約された環境での画像検索などの非展開ユースケースも、特定の固定クラス分類法でモデルの十分なドメイン内テストが行われない限り、推奨されません。これは、CLIPの性能が異なるクラス分類法で変動するため、タスク固有のテストが必要であることがセキュリティ評価で示されているためです。このため、未テストで制約のないモデルの展開は、現在のところ潜在的に有害です。

監視や顔認識の分野に該当する特定のユースケースは、モデルの性能に関係なく常に範囲外です。これは、このようなタスクに人工知能を使用することは、公正な使用を保証するためのテスト基準やチェックが不足しているため、現時点では時期尚早であるためです。

モデルは英語以外の言語で意図的に学習または評価されていないため、その使用は英語のユースケースに限定する必要があります。

学習詳細

学習データ

このモデルは、LAION - 2B -- [LAION - 5B](https://laion.ai/blog/laion - 5b/) の20億サンプルの英語サブセットを使用して学習されました。

⚠️ 重要提示

このデータセットの作成動機は、大規模なマルチモーダルモデルの学習と、公開されたインターネットからクロールされた未精製の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的で使用することを推奨します。この大規模データセットは未精製であることに注意してください。データセットの未精製な性質により、収集されたリンクは人間の閲覧者にとって非常に不快で不快なコンテンツにつながる可能性があります。したがって、デモリンクを使用する場合は、注意して自己責任で行ってください。独自に学習したNSFW分類器を使用して安全タグに基づいてサンプルをフィルタリングすることで、「安全な」サブセットを抽出することができます。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性は大幅に減少しますが、安全モードでも有害なコンテンツが存在する可能性を完全に排除することはできません。このデータセットを幅広い研究やその他の関心のあるコミュニティに公開することで、大規模モデルの学習に伴う利点と、閉じた小規模コミュニティに限定された大規模データセットを使用する際に報告されないままになる可能性のある落とし穴や危険性の透明な調査が可能になります。ただし、このデータセットを公開しているが、このような大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成に使用することは推奨しません。

学習手順

すべてのモデルは、グローバルバッチサイズ102400で、203.7Mサンプルの128チェックポイント間隔で学習され、合計で約26Bサンプルが学習に使用されました。

評価

評価は、[LAION CLIP Benchmark suite](https://github.com/LAION - AI/CLIP_benchmark) のコードを使用して行われました。

テストデータ、要因、メトリクス

テストデータ

テストは、分類にはVTAB+ (VTAB (https://arxiv.org/abs/1910.04867) と追加のロバストデータセットの組み合わせ) を、検索にはCOCOとFlickrを使用して行われました。

結果

モデルは、ImageNet - 1kで75.9のTop - 1ゼロショット精度を達成しました。

初期のベンチマークは、より広範囲のデータセットで実行され、https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb で確認できます。

🔧 技術詳細

このモデルは、CLIPアーキテクチャをベースに、ConvNeXt - Largeモデルを使用しています。画像タワーとテキストタワーの構成や学習方法については、上記のモデル詳細セクションを参照してください。

📄 ライセンス

このモデルは、MITライセンスの下で公開されています。

Acknowledgements

このモデルの学習に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。

Citation

BibTeX:

LAION - 5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenCLIPソフトウェア

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

@Article{liu2022convnet,
  author  = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
  title   = {A ConvNet for the 2020s},
  journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year    = {2022},
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
}