🚀 CLIP ViT-B-32 256x256 を DataComp-1B で学習したモデルカード
このモデルは、OpenCLIPを使用してDataComp-1Bデータセットで学習されたCLIP ViT-B/32モデルです。ゼロショット画像分類や画像・テキスト検索などのタスクに利用できます。
🚀 クイックスタート
モデルの使用を開始するには、こちらを参照してください。
✨ 主な機能
直接的な利用
下流の利用
- 画像分類やその他の画像タスクの微調整
- 線形プローブ画像分類
- 画像生成のガイドと条件付け
📦 インストール
このREADMEにはインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
このREADMEには使用例のコードが記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデルの詳細
モデルの説明
このモデルは、OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、DataComp-1B (https://github.com/mlfoundations/datacomp) で256x256の解像度で学習されたCLIP ViT-B/32モデルです。モデルの学習は、JURECA クラスターで行われました。
利用用途
元の OpenAI CLIPモデルカード に従い、このモデルは研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショット、任意の画像分類をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています。
OpenAI CLIP論文には、このような分析の例として、潜在的な下流の影響に関する議論が含まれています。さらに、DataComp論文 (https://arxiv.org/abs/2304.14108) には、特に学習データセットに関連する追加の議論が含まれています。
直接的な利用
ゼロショット画像分類、画像とテキストの検索など。
下流の利用
画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドと条件付けなど。
範囲外の利用
OpenAIのモデルと同様に、
すべての モデルの展開されたユースケース - 商用か否かを問わず - は現在範囲外です。制約された環境での画像検索などの非展開ユースケースも、特定の固定クラス分類体系でモデルの十分なドメイン内テストが行われない限り、推奨されません。これは、私たちの安全性評価により、特に異なるクラス分類体系でのCLIPの性能の変動性を考慮すると、タスク固有のテストが非常に必要であることが示されたためです。このため、現在、未テストかつ制約されていないモデルの任意のユースケースでの展開は、潜在的に有害です。
監視や顔認識の分野に該当する特定のユースケースは、モデルの性能に関係なく、常に範囲外です。これは、このようなタスクに人工知能を使用することは、現在、公平な使用を保証するためのテスト基準やチェックが不足しているため、時期尚早である可能性があるためです。
学習の詳細
学習データ
このモデルは、DataComp-1Bデータセット (https://arxiv.org/abs/2304.14108) の14億個のサンプルで学習されました。
⚠️ 重要提示
このデータセットの作成の動機は、大規模なマルチモーダルモデルの学習と、公開されたインターネットからクロールされた未精選の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、私たちの推奨は、このデータセットを研究目的で使用することです。この大規模データセットは未精選であることに注意してください。データセットの未精選な性質は、収集されたリンクが人間の閲覧者にとって非常に不快で不快なコンテンツにつながる可能性があることを意味します。したがって、デモリンクを注意して使用し、自己責任で使用してください。独自に学習したNSFW分類器を使用して、安全タグに基づいてサンプルをフィルタリングすることで、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツがまだ存在する可能性を完全に排除することはできないため、警告は依然として有効です。私たちは、このデータセットを幅広い研究やその他の関心のあるコミュニティに公開することで、大規模モデルの学習に伴う利点と、閉じた大規模データセットで作業する際に報告されないまま、または見過ごされる可能性のある落とし穴や危険性を透明に調査できるようになると考えています。ただし、このデータセットを公開することで、私たちはそれをすぐに使える産業用製品の作成に使用することを推奨しません。このリリースで促進したい、このような大規模モデルの一般的な特性と安全性に関する基礎研究はまだ進行中です。
SLURMスクリプト
#!/bin/bash -x
source /path/miniconda/bin/activate
export CUDA_VISIBLE_DEVICES=0,1,2,3
export MASTER_PORT=12802
master_addr=$(scontrol show hostnames "$SLURM_JOB_NODELIST" | head -n 1)
export MASTER_ADDR=$master_addr"i"
echo "MASTER_ADDR="$MASTER_ADDR
srun --cpu-bind=v --cpus-per-task=12 python -u -m training.main --aug-cfg scale='(0.4, 1.0)' color_jitter='(0.32, 0.32, 0.32, 0.08)' color_jitter_prob=0.8 gray_scale_prob=0.2 use_timm=True \
--save-frequency 1 \
--zeroshot-frequency 1 \
--dataset-type webdataset \
--train-data '/path/to/data' \
--report-to tensorboard \
--train-num-samples 1398270000 \
--warmup 2000 \
--batch-size 896 \
--epochs 24 \
--workers 8 \
--model ViT-B-32-256 \
--logs logs \
--seed 0 \
--ddp-static-graph \
--local-loss \
--gather-with-grad \
--lr 0.001 \
--log-every-n-steps 20 \
--save-most-recent \
--resume latest \
--grad-checkpointing \
--precision amp_bfloat16 \
--beta1 0.9 \
--beta2 0.95 \
--wd 0.2
評価
評価は、LAION CLIP Benchmark を使用して、38のデータセットで行われました。
テストデータ、要因、メトリクス
テストデータ
テストは、38のデータセットのセットで行われます。詳細については、私たちの論文 (https://arxiv.org/abs/2304.14108) を参照してください。
結果
このモデルは、ImageNet-1kで72.7%のゼロショットトップ1精度、COCOキャプションで64.4%の画像検索リコール@5、および80.7%のテキスト検索リコール@5を達成します。
謝辞
このセクションには謝辞に関する内容が記載されていないため、省略されます。
引用
BibTeX:
DataComp
@article{datacomp,
title={DataComp: In search of the next generation of multimodal datasets},
author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
journal={arXiv preprint arXiv:2304.14108},
year={2023}
}
OpenAI CLIP論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIPソフトウェア
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
📄 ライセンス
このモデルはMITライセンスの下で提供されています。