🚀 CLIP ViT - B/32 - LAION - 2B 模型卡
本模型基於 LAION - 2B 英文子集訓練,可用於零樣本圖像分類等任務,助力研究人員探索圖像分類領域。
🚀 快速開始
使用以下代碼開始使用該模型:
✨ 主要特性
- 研究導向:作為研究成果,助力研究人員理解和探索零樣本、任意圖像分類,也可用於跨學科研究。
- 多用途:可用於零樣本圖像分類、圖像和文本檢索等直接任務,也能用於圖像分類微調、圖像生成引導等下游任務。
📦 安裝指南
文檔未提及安裝步驟,暫不展示。
💻 使用示例
文檔未提供代碼示例,暫不展示。
📚 詳細文檔
模型詳情
模型描述
這是一個 CLIP ViT - B/32 模型,使用 OpenCLIP(https://github.com/mlfoundations/open_clip)在 LAION - 5B 的 LAION - 2B 英文子集(https://laion.ai/blog/laion - 5b/)上進行訓練。模型由 Romain Beaumont 在 stability.ai 集群上完成訓練。
用途
預期用途
正如原始的 [OpenAI CLIP 模型卡](https://github.com/openai/CLIP/blob/d50d76daa670286dd6cacf3bcd80b5e4823fc8e1/model - card.md) 所述,該模型旨在作為研究成果供研究社區使用。希望此模型能讓研究人員更好地理解和探索零樣本、任意圖像分類,也可用於此類模型潛在影響的跨學科研究。OpenAI CLIP 論文對潛在的下游影響進行了討論,為這類分析提供了示例。此外,LAION - 5B 博客(https://laion.ai/blog/laion - 5b/)和即將發表的論文針對訓練數據集進行了額外討論。
直接用途
零樣本圖像分類、圖像和文本檢索等。
下游用途
圖像分類和其他圖像任務的微調、線性探針圖像分類、圖像生成引導和條件設定等。
非預期用途
- 與 OpenAI 模型一樣,該模型的任何部署用例(無論是否商業用途)目前都不在預期範圍內。非部署用例,如在受限環境中的圖像搜索,除非對模型使用特定、固定的類別分類法進行了全面的領域內測試,否則也不建議使用。因為安全評估表明,鑑於 CLIP 在不同類別分類法下的性能差異很大,非常需要進行特定任務的測試。這使得在任何用例中未經測試和不受約束地部署該模型目前可能有害。
- 某些屬於監控和人臉識別領域的用例,無論模型性能如何,始終不在預期範圍內。因為目前缺乏確保公平使用的測試規範和檢查,使用人工智能進行此類任務可能還為時過早。
- 由於該模型未針對英語以外的任何語言進行專門訓練和評估,其使用應限於英語用例。
- 此外,用於訓練這些模型的 LAION - 5B 數據集還有其他注意事項,詳見下文。
訓練詳情
訓練數據
該模型使用 LAION - 5B 的 20 億樣本英文子集(https://laion.ai/blog/laion - 5b/)進行訓練。
⚠️ 重要提示
創建該數據集的動機是使大規模多模態模型訓練和處理從公開互聯網爬取的未整理大規模數據集的研究和實驗民主化。因此建議將該數據集用於研究目的。需注意,這個大規模數據集是未整理的,收集的鏈接可能會指向讓人類觀看者極度不適和不安的內容。所以,請謹慎使用演示鏈接並自擔風險。可以通過基於安全標籤過濾樣本(使用我們構建的自定義訓練的 NSFW 分類器)來提取“安全”子集。雖然這大大降低了查看時遇到潛在有害內容的可能性,但我們不能完全排除安全模式下仍存在有害內容的可能性,因此該警告仍然適用。我們認為,向廣泛的研究和其他感興趣的社區公開提供該數據集,將有助於透明地研究訓練大規模模型帶來的好處,以及在使用僅限於小社區的封閉大型數據集時可能未報告或未注意到的陷阱和危險。然而,我們不建議使用該數據集創建現成的工業產品,因為關於此類大規模模型的一般屬性和安全性的基礎研究仍在進行中。
訓練過程
請參閱 訓練筆記 和 [wandb 日誌](https://wandb.ai/rom1504/eval_openclip/reports/B - 32 - 2B --VmlldzoyNDkwNDMy)。
評估
使用 [LAION CLIP 基準套件](https://github.com/LAION - AI/CLIP_benchmark) 中的代碼進行評估。
測試數據、因素和指標
測試數據
分類任務使用 VTAB +(VTAB(https://arxiv.org/abs/1910.04867)與其他魯棒性數據集的組合)進行測試,檢索任務使用 COCO 和 Flickr 進行測試。
TODO - 更多細節
結果
該模型在 ImageNet - 1k 上實現了 66.6 的零樣本 top - 1 準確率。
已在更廣泛的數據集上進行了初步的基準測試,目前可在 https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。
TODO - 為該模型的指標創建表格。
致謝
感謝 stability.ai 提供訓練該模型的計算資源。
引用
BibTeX:
除了即將發表的 LAION - 5B(https://laion.ai/blog/laion - 5b/)論文外,請引用:
OpenAI CLIP 論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP 軟件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
🔧 技術細節
文檔未提供足夠技術實現細節,暫不展示。
📄 許可證
本模型使用 MIT 許可證。