モデル概要
モデル特徴
モデル能力
使用事例
🚀 CLIP-ViT-g-14-laion2B-s34B-b88K
CLIP-ViT-g-14-laion2B-s34B-b88Kは、OpenCLIPを用いてLAION-5Bの英語サブセットで学習されたモデルです。ゼロショット画像分類や画像・テキスト検索などのタスクに利用できます。
🚀 クイックスタート
このモデルを使用するには、以下のコードを参考にしてください。
# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets
✨ 主な機能
直接的な利用
- ゼロショット画像分類
- 画像とテキストの検索
下流の利用
- 画像分類やその他の画像タスクの微調整
- 線形プローブ画像分類
- 画像生成のガイドと条件付け
📦 インストール
READMEにインストール手順は記載されていません。
📚 ドキュメント
モデルの詳細
モデルの説明
CLIP ViT-g/14モデルは、OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、LAION-5B (https://laion.ai/blog/laion-5b/, https://openreview.net/forum?id=M3Y74vmsMcY) のLAION-2B英語サブセットで学習されました。
モデルの学習は、Jenia Jitsevによって Juelich Supercomputing Center の JUWELS Booster と stability.ai のAWS HPCクラスターで行われました。学習は再現可能なスケーリング則研究の枠組みで行われ、CVPR 2023の研究論文 として公開されています。詳細は 研究リポジトリ も参照してください。
利用方法
このモデルは、元の OpenAI CLIPモデルカード と同様に、研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショット、任意の画像分類をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています。
OpenAI CLIP論文には、潜在的な下流の影響に関する議論が含まれており、このような分析の例が示されています。さらに、LAION-5Bブログ (https://laion.ai/blog/laion-5b/) と LAION-5B NeurIPS論文 には、特に学習データセットに関する追加の議論が含まれています。
直接的な利用
ゼロショット画像分類、画像とテキストの検索など。
下流の利用
画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドと条件付けなど。
範囲外の利用
OpenAIモデルと同様に、
いかなる モデルの展開利用ケース(商用か否かを問わない)は、現在のところ範囲外です。制約された環境での画像検索などの非展開利用ケースも、特定の固定クラス分類体系でモデルの十分なドメイン内テストが行われない限り、推奨されません。これは、私たちの安全性評価により、特にCLIPの異なるクラス分類体系での性能の変動性を考慮すると、タスク固有のテストが非常に必要であることが示されたためです。このため、未テストかつ制約されていないモデルの展開は、現在のところ任意の利用ケースで潜在的に有害です。
監視や顔認識の領域に該当する特定の利用ケースは、モデルの性能に関係なく、常に範囲外です。これは、このようなタスクに人工知能を使用することは、現在のところ公平な利用を保証するためのテスト基準やチェックが不足しているため、時期尚早であると考えられるためです。
モデルは英語以外の言語で意図的に学習または評価されていないため、その利用は英語の利用ケースに限定すべきです。
上記の注意事項に加えて、これらのモデルの学習に使用されるLAION-5Bデータセットには、追加の考慮事項があります。詳細は下記を参照してください。
学習の詳細
学習データ
このモデルは、LAION-5B (https://laion.ai/blog/laion-5b/) の20億サンプルの英語サブセットで学習されました。
⚠️ 重要提示
このデータセットの作成の動機は、大規模なマルチモーダルモデルの学習と、公開されたインターネットからクロールされた未整理の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、私たちの推奨は、このデータセットを研究目的で使用することです。この大規模データセットは未整理であることに注意してください。データセットの未整理な性質は、収集されたリンクが人間の閲覧者にとって非常に不快で不快なコンテンツにつながる可能性があることを意味します。したがって、デモリンクを使用する際は、注意して自己責任で行ってください。安全タグに基づいてサンプルをフィルタリングすることで(私たちが構築したカスタマイズされた学習済みNSFW分類器を使用)、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツがまだ存在する可能性を完全に排除することはできないため、警告は依然として有効です。私たちは、このデータセットを幅広い研究やその他の関心のあるコミュニティに公開することで、大規模モデルの学習に伴う利点と、閉じた大規模データセットを使用する際に報告されないままになる可能性のある落とし穴や危険性について、透明な調査が可能になると考えています。ただし、このデータセットを公開しているが、このような大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成には使用しないことをお勧めします。
学習手順
OpenCLIP ViT-g/14モデルは、laion2b-en (LAION-5Bの一部) データセットの345億サンプル (135M * 256チェックポイント) で学習されました。ウォームアップ = 13.5kステップ、学習率 = 1e-3、コサインアニーリングスケジュール、重み減衰 = 0.2。グローバルバッチサイズ = 88800、GPU数 = 1480、ローカルバッチサイズ = 60
評価
評価は、LAION CLIPベンチマークスイート のコードを使用して行われました。
テストデータ、要因、メトリクス
テストデータ
テストは、分類にはVTAB+ (VTAB (https://arxiv.org/abs/1910.04867) と追加のロバストデータセットの組み合わせ) を、検索にはCOCOとFlickrを使用して行われます。
TODO - 詳細情報
結果
このモデルは、ImageNet-1kで78.4のゼロショットトップ1精度を達成しています。
初期のベンチマークは、より広範囲のデータセットで行われており、現在はhttps://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb で確認できます。
TODO - このモデルのメトリクスのみのテーブルを作成する。
謝辞
私たちは、Gauss Centre for Supercomputing e.V. (www.gauss-centre.eu) に感謝します。彼らは、Jülich Supercomputing Centre (JSC) のGCSスーパーコンピュータ JUWELS Booster で、John von Neumann Institute for Computing (NIC) を通じてコンピューティング時間を提供することで、この研究を支援してくれました。
また、JSCによって付与され、運営されているJUST上のストレージリソース、およびHelmholtz Data Federation (HDF) からのコンピューティングリソースにも感謝しています。
さらに、このモデルの学習に使用される追加のコンピューティングリソースを提供してくれた stability.ai にも感謝しています。
引用
BibTeX:
次の文献を引用してください。
LAION-5B論文
@inproceedings{Schuhmann2022,
title={{LAION}-5{B}: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and Romain Beaumont and Richard Vencu and Cade W Gordon and Ross Wightman and Mehdi Cherti and Theo Coombes and Aarush Katta and Clayton Mullis and Mitchell Wortsman and Patrick Schramowski and Srivatsa R Kundurthy and Katherine Crowson and Ludwig Schmidt and Robert Kaczmarczyk and Jenia Jitsev},
booktitle={Thirty-sixth Conference on Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2022},
volume={35},
pages={25278--25294},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenCLIPの再現可能なスケーリング則論文
@inproceedings{Cherti2023,
title={Reproducible scaling laws for contrastive language-image learning},
author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
pages={2818--2829},
year={2023}
}
OpenAI CLIP論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIPソフトウェア
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
📄 ライセンス
このモデルはMITライセンスの下で提供されています。









