🚀 CLIP ViT-H/14 - LAION-2B模型卡
本模型基於LAION-2B英文子集訓練,能夠助力研究人員開展零樣本、任意圖像分類研究,還可用於圖像與文本檢索等任務。
🚀 快速開始
使用以下代碼開始使用該模型:
✨ 主要特性
- 研究導向:作為研究成果,供研究社區使用,助力研究人員理解和探索零樣本、任意圖像分類。
- 多用途:可用於零樣本圖像分類、圖像和文本檢索等直接任務,也能用於圖像分類微調、圖像生成引導等下游任務。
📚 詳細文檔
🔍 模型詳情
模型描述
這是一個CLIP ViT-H/14模型,使用OpenCLIP(https://github.com/mlfoundations/open_clip)在LAION-5B的LAION-2B英文子集(https://laion.ai/blog/laion-5b/)上進行訓練。模型由Romain Beaumont在stability.ai集群上完成訓練。
💡 使用說明
用途範圍
- 直接使用:零樣本圖像分類、圖像和文本檢索等。
- 下游使用:圖像分類和其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件設定等。
- 超出範圍使用:目前,模型的任何部署用例(無論是否商業用途)都超出範圍。非部署用例(如在受限環境中的圖像搜索)也不建議,除非對模型進行特定、固定類別的全面領域測試。此外,涉及監控和人臉識別的用例始終超出範圍。由於模型僅在英語上訓練和評估,其使用應限於英語用例。
⚙️ 訓練詳情
訓練數據
模型使用LAION-5B的20億樣本英文子集(https://laion.ai/blog/laion-5b/)進行訓練。該數據集未經過精心策劃,收集的鏈接可能包含令人不適的內容。可通過安全標籤過濾出“安全”子集,但不能完全排除有害內容。不建議將其用於創建工業產品。
訓練過程
請參閱訓練筆記和wandb日誌。
📊 評估
評估使用LAION CLIP基準套件中的代碼進行。
測試數據、因素和指標
- 測試數據:分類任務使用VTAB+(VTAB(https://arxiv.org/abs/1910.04867)與額外魯棒性數據集的組合),檢索任務使用COCO和Flickr。
結果
模型在ImageNet-1k上實現了78.0的零樣本top-1準確率。初始基準測試已在更廣泛的數據集上進行,結果可在https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。
🙏 致謝
感謝stability.ai提供訓練模型的計算資源。
📑 引用
BibTeX:
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
📄 許可證
本項目採用MIT許可證。