🚀 CLIP ViT-bigG/14 - LAION-2B模型卡片
本模型是一個CLIP ViT - bigG/14模型,旨在助力研究人員更好地理解和探索零樣本、任意圖像分類,也可用於跨學科研究該類模型的潛在影響。
🚀 快速開始
使用以下代碼開始使用該模型:
✨ 主要特性
- 研究導向:作為研究成果,供研究社區使用,助力零樣本、任意圖像分類研究。
- 多用途:可用於零樣本圖像分類、圖像和文本檢索等直接任務,也能用於圖像分類微調、圖像生成引導等下游任務。
📦 安裝指南
文檔未提及安裝步驟,暫不展示。
💻 使用示例
文檔未提供代碼示例,暫不展示。
📚 詳細文檔
模型詳情
模型描述
這是一個CLIP ViT - bigG/14模型,使用OpenCLIP(https://github.com/mlfoundations/open_clip)在LAION - 5B(https://laion.ai/blog/laion - 5b/)的LAION - 2B英文子集上進行訓練。模型由Mitchell Wortsman在stability.ai集群上完成訓練,許可證為MIT。
用途
- 直接使用:零樣本圖像分類、圖像和文本檢索等。
- 下游使用:圖像分類和其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件設定等。
- 超出適用範圍的使用:目前,模型的任何部署用例(無論是否商業用途)都超出適用範圍。非部署用例(如在受限環境中的圖像搜索)也不推薦,除非對模型進行特定、固定類別分類法的全面領域內測試。此外,涉及監控和人臉識別領域的用例始終超出適用範圍。由於模型僅在英語上進行訓練和評估,其使用應限於英語用例。
訓練詳情
訓練數據
該模型使用LAION - 5B的20億樣本英文子集進行訓練,也在LAION - A(LAION - 2B的9億子集,經過美學V2 4.5+過濾和phash去重)上進行了部分微調。
⚠️ 重要提示
數據集創建的目的是推動大規模多模態模型訓練和處理未整理的大規模公共互聯網數據集的研究和實驗。建議僅將數據集用於研究目的。該大規模數據集未經過整理,收集的鏈接可能包含令人不適和不安的內容。雖然可以通過安全標籤過濾出“安全”子集,但仍不能完全排除有害內容的存在。不建議使用該數據集創建工業產品,因為關於此類大規模模型的基本屬性和安全性的基礎研究仍在進行中。
訓練過程
訓練過程將很快在laion.ai的博客文章中討論。
評估
評估使用[LAION CLIP Benchmark套件](https://github.com/LAION - AI/CLIP_benchmark)中的代碼進行。
測試數據、因素和指標
- 測試數據:分類任務使用VTAB +(VTAB(https://arxiv.org/abs/1910.04867)與其他魯棒性數據集的組合),檢索任務使用COCO和Flickr。
結果
該模型在ImageNet - 1k上實現了80.1的零樣本top - 1準確率。
致謝
感謝stability.ai提供訓練該模型的計算資源。
引用
BibTeX:
LAION - 5B
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenAI CLIP論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP軟件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
擴展OpenCLIP論文
@article{cherti2022reproducible,
title={Reproducible scaling laws for contrastive language-image learning},
author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia},
journal={arXiv preprint arXiv:2212.07143},
year={2022}
}
🔧 技術細節
文檔未提供具體技術實現細節,暫不展示。
📄 許可證
本模型的許可證為MIT。