🚀 CLIP ViT-H/14 - LAION-2B 模型卡片
CLIP ViT-H/14 - LAION-2B 模型是使用 OpenCLIP 在 LAION-5B 的英語子集 LAION-2B 上訓練得到的。該模型可用於零樣本圖像分類、圖像和文本檢索等任務,為研究人員提供了探索零樣本圖像分類的工具。
🚀 快速開始
使用以下代碼開始使用該模型:
✨ 主要特性
- 研究導向:作為研究成果,旨在幫助研究人員理解和探索零樣本、任意圖像分類。
- 多用途:可用於零樣本圖像分類、圖像和文本檢索、圖像分類微調、圖像生成引導等多種任務。
📦 安裝指南
暫未提供安裝步驟,可參考相關庫(如 open_clip
)的官方文檔進行安裝。
💻 使用示例
基礎用法
高級用法
📚 詳細文檔
模型詳情
- 模型描述:一個 CLIP ViT-H/14 模型,使用 OpenCLIP 在 LAION-5B 的英語子集 LAION-2B(https://laion.ai/blog/laion-5b/)上進行訓練。模型由 Romain Beaumont 在 stability.ai 集群上完成訓練。
- 使用場景
- 直接使用:零樣本圖像分類、圖像和文本檢索等。
- 下游使用:圖像分類和其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件等。
- 超出範圍的使用:目前任何模型的部署用例(無論是否商業用途)都超出範圍。未部署的用例如在受限環境中的圖像搜索,除非對模型進行特定、固定類別的徹底領域內測試,否則也不推薦。此外,涉及監控和人臉識別的用例始終超出範圍。由於模型僅在英語上訓練和評估,其使用應限於英語用例。
訓練詳情
- 訓練數據:使用 LAION-5B 的 20 億樣本英語子集進行訓練。該數據集未經過精心篩選,收集的鏈接可能包含令人不適的內容。可通過安全標籤過濾出“安全”子集,但不能完全排除有害內容。不建議使用該數據集創建工業產品,目前相關基礎研究仍在進行中。
- 訓練過程:請參考 訓練筆記 和 wandb 日誌。
評估
- 評估方式:使用 LAION CLIP 基準套件 中的代碼進行評估。
- 測試數據、因素和指標
- 測試數據:分類任務使用 VTAB+(VTAB 與額外魯棒性數據集的組合),檢索任務使用 COCO 和 Flickr。
- 結果:該模型在 ImageNet-1k 上實現了 78.0 的零樣本 top-1 準確率。更廣泛數據集的初始基準測試結果可在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。
🔧 技術細節
- 模型類型:CLIP ViT-H/14
- 訓練數據:LAION-5B 的英語子集 LAION-2B
| 屬性 | 詳情 |
|------|------|
| 模型類型 | CLIP ViT-H/14 |
| 訓練數據 | LAION-5B 的英語子集 LAION-2B |
📄 許可證
本模型採用 MIT 許可證。
致謝
感謝 stability.ai 提供訓練該模型的計算資源。
引用
LAION-5B
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenAI CLIP 論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP 軟件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
⚠️ 重要提示
- 數據集風險:訓練使用的 LAION-5B 數據集未經過精心篩選,包含的鏈接可能指向令人不適的內容。使用演示鏈接時請謹慎並自行承擔風險。
- 使用範圍:目前模型的任何部署用例(無論是否商業用途)都超出範圍。未部署的用例如在受限環境中的圖像搜索,需進行特定、固定類別的徹底領域內測試。涉及監控和人臉識別的用例始終超出範圍。由於模型僅在英語上訓練和評估,其使用應限於英語用例。
💡 使用建議
- 研究優先:建議將該模型用於研究目的,以更好地理解和探索零樣本圖像分類。
- 數據過濾:如果使用 LAION-5B 數據集,可通過安全標籤過濾出“安全”子集,降低遇到有害內容的風險。