🚀 CLIP ViT-bigG/14 - LAION-2B のモデルカード
このモデルは、LAION-5Bの英語サブセットであるLAION-2Bを使用してOpenCLIPで学習されたCLIP ViT-bigG/14モデルです。研究コミュニティによる研究成果として、ゼロショットの任意の画像分類の理解と探索を支援することを目指しています。
🚀 クイックスタート
以下のコードを使用して、このモデルを始めることができます。
** TODO ** - Hugging Face transformers、OpenCLIP、およびtimmの使用開始スニペット
✨ 主な機能
直接的な使用
ゼロショット画像分類、画像およびテキストの検索など。
下流の使用
画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドと条件付けなど。
📦 インストール
このドキュメントにはインストール手順が記載されていません。
📚 ドキュメント
モデルの詳細
モデルの説明
OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、LAION-5B (https://laion.ai/blog/laion-5b/) のLAION-2B英語サブセットで学習されたCLIP ViT-bigG/14モデルです。
モデルの学習は、Mitchell Wortsmanによって stability.ai クラスターで行われました。
このモデルのライセンスはMITです。
用途
元の OpenAI CLIPモデルカード に従い、このモデルは研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショットの任意の画像分類をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています。
OpenAI CLIP論文には、このような分析の例として、潜在的な下流の影響に関する議論が含まれています。さらに、LAION-5Bブログ (https://laion.ai/blog/laion-5b/) と今後の論文には、学習データセットに関する追加の議論が含まれています。
学習の詳細
学習データ
このモデルは、LAION-5B (https://laion.ai/blog/laion-5b/) の20億サンプルの英語サブセットで学習されました。
微調整は、審美V2 4.5+でフィルタリングされ、phashで重複排除されたLAION-2Bの9億サブセットであるLAION-Aでも部分的に行われました。
⚠️ 重要提示
データセット作成の動機は、大規模なマルチモーダルモデルの学習と、公開されたインターネットからクロールされた未整理の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的で使用することをお勧めします。この大規模データセットは未整理であることに注意してください。データセットの未整理な性質により、収集されたリンクが人間の視聴者にとって非常に不快で不快なコンテンツにつながる可能性があることを覚えておいてください。したがって、デモリンクを使用する場合は注意して自己責任で行ってください。独自に学習したNSFW分類器を使用してサンプルを安全タグでフィルタリングすることで、「安全な」サブセットを抽出することができます。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツがまだ存在する可能性を完全に排除することはできないため、そこでも警告が有効です。幅広い研究コミュニティやその他の関心のあるコミュニティにデータセットを公開することで、大規模モデルの学習に伴う利点と、小規模なコミュニティに限定された閉じた大規模データセットで作業する場合に報告されないまま、または気付かれないままになる可能性のある落とし穴や危険を透明に調査することができます。ただし、このデータセットを公開することで、このリリースで奨励したい、このような大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成にこのデータセットを使用することはお勧めしません。
学習手順
学習手順については、近日中にlaion.aiのブログ記事で議論される予定です。
評価
評価は、LAION CLIPベンチマークスイート のコードを使用して行われました。
テストデータ、要因、メトリクス
テストデータ
テストは、分類にはVTAB+ (VTAB (https://arxiv.org/abs/1910.04867) と追加のロバストデータセットの組み合わせ) を、検索にはCOCOとFlickrを使用して行われます。
TODO - 詳細情報
結果
このモデルは、ImageNet-1kで80.1のゼロショットトップ1精度を達成しています。
初期のベンチマークは、より広範なデータセットで実行されており、近日中に https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb で確認できるようになります。
TODO - このモデルのメトリクスのみのテーブルを作成する。
謝辞
このモデルの学習に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。
引用
BibTeX:
LAION-5B
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenAI CLIP論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIPソフトウェア
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
Scaling OpenCLIP論文
@article{cherti2022reproducible,
title={Reproducible scaling laws for contrastive language-image learning},
author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia},
journal={arXiv preprint arXiv:2212.07143},
year={2022}
}
📄 ライセンス
このモデルのライセンスはMITです。