🚀 CLIP ViT-B/32 - LAION-2B
このモデルは、LAION-5Bの英語サブセットLAION-2Bを使用して学習されたCLIP ViT-B/32モデルです。ゼロショット画像分類や画像・テキスト検索などのタスクに役立ちます。
🚀 クイックスタート
このモデルを使用するには、以下のコードを参考にしてください。
✨ 主な機能
直接的な利用
下流の利用
- 画像分類やその他の画像タスクの微調整
- 線形プローブ画像分類
- 画像生成のガイドと条件付け
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
このREADMEには具体的なコード例が記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデルの詳細
CLIP ViT-B/32モデルは、LAION-5Bの英語サブセットLAION-2B (https://laion.ai/blog/laion-5b/) を使用し、OpenCLIP (https://github.com/mlfoundations/open_clip) を用いて学習されました。学習はRomain Beaumontによって stability.ai クラスター上で行われました。
使用目的
このモデルは、研究コミュニティ向けの研究成果として意図されています。研究者がゼロショット、任意の画像分類をよりよく理解し、探索することを可能にすることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも役立つことを期待しています。
利用範囲外の使用
OpenAIモデルと同様に、このモデルのすべての展開されたユースケース(商用または非商用)は現在対象外です。制約された環境での画像検索などの非展開ユースケースも、特定の固定クラス分類法でモデルの十分なドメイン内テストが行われない限り、推奨されません。これは、CLIPの性能が異なるクラス分類法で大きく異なるため、タスク固有のテストが必要であることがセーフティ評価で示されているためです。このため、未テストかつ制約のないモデルの展開は、現在のところ潜在的に有害です。
監視や顔認識の分野に属する特定のユースケースは、モデルの性能に関係なく常に対象外です。これは、このようなタスクに人工知能を使用することは、公平な使用を保証するためのテスト基準とチェックが不足しているため、現時点では時期尚早である可能性があるためです。
このモデルは英語以外の言語での学習や評価が行われていないため、使用は英語のユースケースに限定する必要があります。
学習の詳細
学習データ
このモデルは、LAION-5Bの20億サンプルの英語サブセットを使用して学習されました (https://laion.ai/blog/laion-5b/)。
⚠️ 重要提示
このデータセットの作成動機は、大規模なマルチモーダルモデルの学習と、公開されたインターネットから収集された未整理の大規模データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的での使用を推奨します。この大規模データセットは未整理であることに注意してください。データセットの未整理な性質により、収集されたリンクが人間の閲覧者にとって非常に不快で不快なコンテンツにつながる可能性があります。したがって、デモリンクを使用する場合は注意して自己責任で行ってください。独自に学習したNSFW分類器を使用してサンプルをフィルタリングすることで、「安全な」サブセットを抽出することが可能です。これにより、閲覧時に潜在的に有害なコンテンツに遭遇する可能性が大幅に減少しますが、安全モードでも有害なコンテンツが存在する可能性を完全に排除することはできません。このデータセットを幅広い研究やその他の関心のあるコミュニティに公開することで、大規模モデルの学習に伴う利点、および閉じた大規模データセットを使用する際に報告されないままになる可能性のある落とし穴や危険を透明に調査することができると考えています。ただし、このデータセットを公開しても、このリリースで促進したい大規模モデルの一般的な特性と安全性に関する基礎研究がまだ進行中であるため、すぐに使える産業用製品の作成に使用することは推奨しません。
学習手順
詳細については、学習ノート と wandbログ を参照してください。
評価
評価は、LAION CLIPベンチマークスイート のコードを使用して行われました。
テストデータ、要因、メトリクス
- テストデータ:分類にはVTAB+(VTAB (https://arxiv.org/abs/1910.04867) と追加のロバストデータセットの組み合わせ)、検索にはCOCOとFlickrが使用されます。
- 結果:このモデルはImageNet-1kで66.6のゼロショットトップ1精度を達成しています。初期のベンチマークは、より広範なデータセットで実行されており、現在はhttps://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb で確認できます。
🔧 技術詳細
このREADMEには具体的な技術詳細が記載されていないため、このセクションは省略されます。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
謝辞
このモデルの学習に使用されたコンピューティングリソースを提供してくれた stability.ai に感謝します。
引用
BibTeX
LAION-5B (https://laion.ai/blog/laion-5b/) の論文に加えて、以下を引用してください。
OpenAI CLIP論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIPソフトウェア
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}