🚀 CLIP ViT-B-32(DataComp-1Bで学習)のモデルカード
このモデルは、DataComp-1Bを用いて学習されたCLIP ViT-B/32モデルで、ゼロショット画像分類などのタスクに役立ちます。研究コミュニティによる研究成果として提供されています。
📚 目次
- モデルの詳細
- 用途
- 学習の詳細
- 評価
- 謝辞
- 引用
- モデルの使い始め方
📋 モデルの詳細
モデルの説明
OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、DataComp-1B (https://github.com/mlfoundations/datacomp) で学習されたCLIP ViT-B/32モデルです。モデルの学習は stability.ai のクラスター上で行われました。
📖 用途
元の OpenAI CLIPモデルカード に従い、このモデルは研究コミュニティ向けの研究成果として意図されています。研究者がゼロショット、任意の画像分類をよりよく理解し、探求することを可能にすることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています。
OpenAI CLIP論文には、このような分析の例として、潜在的な下流の影響に関する議論が含まれています。さらに、DataComp論文 (https://arxiv.org/abs/2304.14108) には、学習データセットに関連する追加の議論が含まれています。
直接的な用途
ゼロショット画像分類、画像とテキストの検索など。
下流の用途
画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドと条件付けなど。
範囲外の用途
OpenAIのモデルと同様に、
いかなる モデルの展開ユースケース(商用か否かを問わない)は現在範囲外です。制約された環境での画像検索などの非展開ユースケースも、特定の固定クラス分類法でモデルの十分なドメイン内テストが行われない限り、推奨されません。これは、私たちの安全性評価が、特にCLIPの性能が異なるクラス分類法で変動することを考慮すると、タスク固有のテストが必要であることを示しているためです。このため、未テストかつ制約のないモデルの展開は、現在のところ潜在的に有害です。
監視や顔認識の分野に該当する特定のユースケースは、モデルの性能に関係なく常に範囲外です。これは、このようなタスクに人工知能を使用することは、公平な使用を保証するためのテスト基準やチェックが不足しているため、現時点では時期尚早である可能性があるためです。
📈 学習の詳細
学習データ
このモデルは、DataComp-1Bデータセット (https://arxiv.org/abs/2304.14108) の14億個のサンプルを使用して学習されました。
⚠️ 重要な注意
このデータセットの作成の動機は、大規模なマルチモーダルモデルの学習と、公開されたインターネットからクロールされた未整理の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的で使用することをお勧めします。この大規模データセットは未整理であることに注意してください。収集されたリンクが人間の視聴者にとって非常に不快で不快なコンテンツにつながる可能性があることを覚えておいてください。したがって、デモリンクを使用する際は注意して自己責任で行ってください。独自に学習したNSFW分類器を使用してサンプルを安全タグに基づいてフィルタリングすることで、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツが存在する可能性を完全に排除することはできません。広範な研究やその他の関心のあるコミュニティにデータセットを公開することで、大規模モデルの学習に伴う利点と、閉じた大規模データセットを使用する際に報告されないまま、または見過ごされる可能性のある落とし穴や危険性を透明に調査することができます。ただし、このデータセットを公開することは、このような大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成に使用することはお勧めしません。
学習手順
詳細は https://arxiv.org/abs/2304.14108 を参照してください。
🧪 評価
DataCompリポジトリ と LAION CLIPベンチマーク を使用して、38のデータセットで評価が行われました。
テストデータ、要因、メトリクス
テストデータ
テストは38のデータセットのセットで行われました。詳細は私たちの論文 (https://arxiv.org/abs/2304.14108) を参照してください。
結果
このモデルは、ImageNet-1kで72.7%のゼロショットトップ1精度を達成しています。詳細と結果については、私たちの論文 (https://arxiv.org/abs/2304.14108) を参照してください。
🙏 謝辞
このモデルの学習に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。
📑 引用
BibTeX:
DataComp
@article{datacomp,
title={DataComp: In search of the next generation of multimodal datasets},
author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
journal={arXiv preprint arXiv:2304.14108},
year={2023}
}
OpenAI CLIP論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIPソフトウェア
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
🚀 モデルの使い始め方
詳細は https://github.com/mlfoundations/open_clip を参照してください。