🚀 CLIP ViT - B/32 - LAION - 2B 模型
CLIP ViT - B/32 - LAION - 2B 是基於 OpenCLIP 框架,使用 LAION - 5B 的英文子集 LAION - 2B 訓練的模型。該模型可用於零樣本圖像分類、圖像和文本檢索等任務,為研究人員探索零樣本圖像分類提供了有力工具。
🚀 快速開始
使用以下代碼開始使用該模型:
✨ 主要特性
- 多用途:可用於零樣本圖像分類、圖像和文本檢索等直接任務,也可用於圖像分類微調、線性探針圖像分類等下游任務。
- 研究導向:旨在為研究社區提供研究輸出,助力研究人員更好地理解和探索零樣本、任意圖像分類。
📦 安裝指南
文檔未提及安裝步驟,暫無法提供。
💻 使用示例
文檔未提供代碼示例,暫無法展示。
📚 詳細文檔
模型詳情
- 模型描述:這是一個 CLIP ViT - B/32 模型,使用 OpenCLIP 在 LAION - 5B 的英文子集 LAION - 2B(https://laion.ai/blog/laion - 5b/)上進行訓練。模型由 Romain Beaumont 在 stability.ai 集群上完成訓練。
用途
- 直接用途:零樣本圖像分類、圖像和文本檢索等。
- 下游用途:圖像分類及其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件設定等。
- 超出適用範圍的用途:
- 目前,模型的任何部署用例(無論是否商業用途)都超出了適用範圍。非部署用例(如在受限環境中的圖像搜索)也不建議使用,除非對模型進行特定、固定類別的徹底領域測試。因為安全評估表明,鑑於 CLIP 在不同類別分類中的性能差異,需要進行特定任務測試。未經測試和無約束地部署模型在任何用例中目前都可能有害。
- 任何屬於監控和人臉識別領域的用例,無論模型性能如何,都始終超出適用範圍。因為目前缺乏確保公平使用的測試規範和檢查,使用人工智能進行此類任務還為時過早。
- 由於模型僅在英語上進行訓練和評估,其使用應限於英語用例。此外,用於訓練這些模型的 LAION - 5B 數據集還有其他注意事項。
訓練詳情
- 訓練數據:該模型使用 LAION - 5B 的 20 億樣本英文子集進行訓練。需注意,該數據集是未經過精心篩選的大規模數據集,從公開互聯網爬取而來。收集的鏈接可能包含令人不適和不安的內容,建議僅用於研究目的。可以通過基於安全標籤過濾樣本(使用自定義訓練的 NSFW 分類器)提取“安全”子集,但不能完全排除有害內容的存在。不建議使用該數據集創建現成的工業產品,因為關於此類大規模模型的一般屬性和安全性的基礎研究仍在進行中。
- 訓練過程:請參閱 訓練筆記 和 [wandb 日誌](https://wandb.ai/rom1504/eval_openclip/reports/B - 32 - 2B -- VmlldzoyNDkwNDMy)。
評估
- 評估方式:使用 [LAION CLIP 基準套件](https://github.com/LAION - AI/CLIP_benchmark) 中的代碼進行評估。
- 測試數據、因素和指標:
- 測試數據:分類任務使用 VTAB +(VTAB(https://arxiv.org/abs/1910.04867)與其他魯棒性數據集的組合),檢索任務使用 COCO 和 Flickr。
- 結果:該模型在 ImageNet - 1k 上實現了 66.6 的零樣本 top - 1 準確率。已在更廣泛的數據集上進行了初步基準測試,目前可在 https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。
致謝
感謝 stability.ai 提供訓練模型所需的計算資源。
引用
除了即將發佈的 LAION - 5B 論文(https://laion.ai/blog/laion - 5b/)外,請引用以下內容:
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
🔧 技術細節
文檔未提供足夠的技術實現細節,暫無法展示。
📄 許可證
本項目採用 MIT 許可證。