🚀 CLIP ViT-L-14基於DataComp-1B訓練的模型卡片
本模型是使用OpenCLIP在DataComp-1B數據集上訓練的CLIP ViT-L/14模型,可用於零樣本圖像分類等任務,為研究人員探索零樣本圖像分類提供了有力工具。
🚀 快速開始
若要開始使用該模型,請參考:https://github.com/mlfoundations/open_clip
✨ 主要特性
- 研究導向:作為研究成果,助力研究社區探索零樣本、任意圖像分類。
- 多用途:可用於零樣本圖像分類、圖像和文本檢索等直接任務,也能用於圖像分類微調、圖像生成引導等下游任務。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
🔍 模型詳情
模型描述
這是一個使用OpenCLIP(https://github.com/mlfoundations/open_clip)在DataComp-1B(https://github.com/mlfoundations/datacomp)數據集上訓練的CLIP ViT-L/14模型。模型訓練在 stability.ai 集群上完成。
🔍 使用場景
預期用途
此模型作為研究成果供研究社區使用,旨在幫助研究人員更好地理解和探索零樣本、任意圖像分類,也可用於跨學科研究該模型的潛在影響。OpenAI CLIP論文和DataComp論文(https://arxiv.org/abs/2304.14108)分別對潛在下游影響和訓練數據集進行了討論。
直接用途
零樣本圖像分類、圖像和文本檢索等。
下游用途
圖像分類及其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件設定等。
不適用場景
- 目前,模型的任何部署用例(無論是否商業用途)都不在適用範圍內。非部署用例(如在受限環境中的圖像搜索)也不推薦,除非對模型進行了特定、固定類別分類法的全面領域測試。因為安全評估表明,鑑於CLIP在不同類別分類法下性能的可變性,非常需要進行特定任務測試。未經測試和無約束地部署模型在任何用例中目前都可能有害。
- 涉及監控和人臉識別領域的某些用例,無論模型性能如何,始終不在適用範圍內。因為目前缺乏確保公平使用的測試規範和檢查,使用人工智能進行此類任務可能為時過早。
🔍 訓練詳情
訓練數據
該模型使用DataComp-1B數據集的14億個樣本進行訓練(https://arxiv.org/abs/2304.14108)。
⚠️ 重要提示
數據集創建的動機是使大規模多模態模型訓練和處理從公共互聯網抓取的未整理大規模數據集的研究和實驗民主化。因此,建議將數據集用於研究目的。需注意,該大規模數據集未經過整理,收集的鏈接可能會導致人類觀察者看到非常不適和令人不安的內容。所以,請謹慎使用演示鏈接,並自行承擔風險。可以通過基於安全標籤過濾樣本(使用我們構建的自定義訓練的NSFW分類器)來提取“安全”子集。雖然這大大降低了查看時遇到潛在有害內容的機會,但我們不能完全排除安全模式下仍存在有害內容的可能性,因此該警告同樣適用。我們認為,向廣泛的研究和其他感興趣的社區公開提供數據集,將有助於透明地研究訓練大規模模型帶來的好處,以及在使用僅限於小社區的封閉大型數據集時可能未報告或未注意到的陷阱和危險。然而,我們不建議使用該數據集創建現成的工業產品,因為關於此類大規模模型的一般屬性和安全性的基礎研究仍在進行中,我們希望通過此次發佈鼓勵這方面的研究。
訓練過程
請參考:https://arxiv.org/abs/2304.14108
🔍 評估
使用 DataComp repo 和 LAION CLIP Benchmark 在38個數據集上進行評估。
測試數據、因素和指標
測試數據
測試在一組38個數據集上進行。更多詳情請參閱我們的論文(https://arxiv.org/abs/2304.14108)。
評估結果
該模型在ImageNet-1k上實現了79.2%的零樣本top-1準確率。更多詳情和結果請參閱我們的論文(https://arxiv.org/abs/2304.14108)。
🔍 致謝
感謝 stability.ai 提供訓練此模型的計算資源。
🔍 引用
DataComp
@article{datacomp,
title={DataComp: In search of the next generation of multimodal datasets},
author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
journal={arXiv preprint arXiv:2304.14108},
year={2023}
}
OpenAI CLIP paper
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP software
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
📄 許可證
本項目採用MIT許可證。