🚀 CLIP ViT-L-14 DataComp-1B訓練済みモデルのモデルカード
このモデルは、OpenCLIPを使用してDataComp-1Bで訓練されたCLIP ViT-L/14モデルです。ゼロショット画像分類や画像・テキスト検索などのタスクに役立ちます。
🚀 クイックスタート
モデルの使い方を始めるには、こちらを参照してください。
✨ 主な機能
- ゼロショット画像分類:事前にラベル付けされていない画像に対して、任意のラベルで分類が可能です。
- 画像とテキストの検索:画像から関連するテキストを検索したり、テキストから関連する画像を検索することができます。
- 下流タスクの微調整:画像分類や画像生成などの下流タスクに対して微調整が可能です。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
このREADMEには具体的なコード例が記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデルの詳細
モデルの説明
OpenCLIP (https://github.com/mlfoundations/open_clip) を使用して、DataComp-1B (https://github.com/mlfoundations/datacomp) で訓練されたCLIP ViT-L/14モデルです。モデルの訓練は stability.ai のクラスターで行われました。
用途
直接的な用途
ゼロショット画像分類、画像とテキストの検索など。
下流の用途
画像分類やその他の画像タスクの微調整、線形プローブによる画像分類、画像生成のガイドや条件付けなど。
範囲外の用途
OpenAIのモデルと同様に、すべてのモデルのデプロイされたユースケース(商用か否かに関わらず)は現在のところ範囲外です。制約された環境での画像検索などの非デプロイユースケースも、特定の固定クラス分類法でモデルの十分なドメイン内テストが行われない限り、推奨されません。これは、CLIPの性能が異なるクラス分類法で変動することを考慮すると、タスク固有のテストが非常に必要であることが安全性評価で示されているためです。このため、未テストかつ制約のないモデルのデプロイは、現在のところどのユースケースでも潜在的に有害です。
また、監視や顔認識の分野に該当する特定のユースケースは、モデルの性能に関係なく常に範囲外です。これは、このようなタスクに人工知能を使用することは、公平な使用を保証するためのテスト基準やチェックが不足しているため、現時点では時期尚早であると考えられるためです。
訓練の詳細
訓練データ
このモデルは、DataComp-1Bデータセット (https://arxiv.org/abs/2304.14108) の14億サンプルで訓練されました。
⚠️ 重要提示
このデータセットの作成の動機は、大規模なマルチモーダルモデルの訓練と、公開されているインターネットからクロールされた未整理の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的で使用することをお勧めします。この大規模データセットは未整理であることに注意してください。データセットの未整理な性質により、収集されたリンクが人間の視聴者にとって非常に不快で不快なコンテンツにつながる可能性があります。したがって、デモリンクを使用する場合は注意して自己責任で行ってください。独自に訓練したNSFW分類器を使用して安全タグに基づいてサンプルをフィルタリングすることで、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツがまだ存在する可能性を完全に排除することはできません。したがって、警告は引き続き有効です。このデータセットを幅広い研究やその他の関心を持つコミュニティに公開することで、大規模モデルの訓練に伴うメリットと、小さなコミュニティに限定された閉じた大規模データセットで作業する場合に報告されないままになる可能性のある落とし穴や危険性を透明に調査することができます。ただし、このデータセットを公開することは、このリリースで奨励したい大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成に使用することはお勧めしません。
訓練手順
詳細は こちら を参照してください。
評価
評価は、DataCompリポジトリ と LAION CLIPベンチマーク を使用して、38のデータセットで行われました。
テストデータ、要因、メトリクス
テストデータ
テストは38のデータセットのセットで行われました。詳細は 論文 を参照してください。
結果
このモデルは、ImageNet-1kで79.2%のゼロショットトップ1精度を達成しています。詳細と結果については 論文 を参照してください。
謝辞
このモデルの訓練に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。
引用
BibTeX
DataComp
@article{datacomp,
title={DataComp: In search of the next generation of multimodal datasets},
author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
journal={arXiv preprint arXiv:2304.14108},
year={2023}
}
OpenAI CLIP論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIPソフトウェア
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
🔧 技術詳細
このREADMEには具体的な技術詳細が記載されていないため、このセクションは省略されます。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。