模型概述
模型特點
模型能力
使用案例
🚀 CLIP-convnext_large_d_320.laion2B-s29B-b131K-ft-soup 模型卡片
本模型是用於零樣本圖像分類的研究成果,藉助CLIP架構和大規模數據集訓練,能助力研究者探索零樣本圖像分類,在圖像和文本檢索等領域有應用潛力。
🚀 快速開始
本部分將為你提供模型的基本信息、使用場景、訓練細節、評估結果等內容,幫助你快速瞭解和使用該模型。
✨ 主要特性
- 強大架構:採用CLIP ConvNeXt-Large 架構,圖像塔使用
timm
的 ConvNeXt-Large 模型,視覺塔採用 MLP 頭,文本塔深度增加。 - 高效表現:320x320 分辨率的 ConvNext-Large-D 模型比 OpenAI 微調的 L/14-336 模型更高效,在計算量、激活值和參數數量上更具優勢。
- 多場景應用:可用於零樣本圖像分類、圖像和文本檢索、圖像分類微調、圖像生成引導等多種任務。
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
文檔未提供代碼示例,暫不展示。
📚 詳細文檔
模型詳情
一系列基於 OpenCLIP 在 LAION-5B 的 LAION-2B(英文)子集上訓練的 CLIP ConvNeXt-Large 模型(額外增加文本深度,視覺 MLP 頭)。
模型特點如下:
- 圖像塔使用 timm 的 ConvNeXt-Large 模型 (
convnext_large
)。 - 視覺塔採用 MLP (
fc - gelu - drop - fc
) 頭,而非其他 CLIP 模型的單一投影。 - 文本塔寬度與 ViT-L / RN50x16 模型相同,但深度增加 4 層(深度 16,嵌入維度 768)。
這個 320x320 分辨率的模型是 CLIP-convnext_large_d.laion2B-s26B-b102K-augreg 在更高分辨率下 3 次微調的集成(權重平均)。它是在原始 256x256 訓練運行的最終檢查點基礎上,每次微調額外增加約 2 - 3B 樣本,並使用較低學習率進行微調的平均值。每次微調使用不同的學習率(1e-4、6e-5、5e-5)和不同數量的樣本(3.2B、2B、2.5B)。
在 320x320 分辨率下,ConvNext-Large-D 模型比 OpenAI 微調的 336x336 分辨率的 L/14 模型效率顯著提高。L/14-336 模型的 GMAC 是其 2.5 倍,激活值是 2.8 倍,參數數量是 1.22 倍。
模型 | 數據集 | 分辨率 | 增強正則化 | ImageNet 零樣本 Top-1 準確率 (%) |
---|---|---|---|---|
convnext_large_d.laion2b_s26b_b102k-augreg | LAION-2B | 256x256 | 隨機裁剪 (0.33, 1.0),隨機擦除 (0.35),隨機深度 (0.1),丟棄率 (0.1) | 75.9 |
convnext_large_d_320.laion2b_s29b_b131k-ft | LAION-2B | 320x320 | 隨機裁剪 (0.5, 1.0),隨機擦除 (0.4),隨機深度 (0.1),丟棄率 (0.0) | 76.6 |
convnext_large_d_320.laion2b_s29b_b131k-ft-soup | LAION-2B | 320x320 | 隨機裁剪 (0.5, 1.0),隨機擦除 (0.4),隨機深度 (0.1),丟棄率 (0.0) | 76.9 |
RRC = 隨機裁剪 (裁剪比例),RE = 隨機擦除 (概率),SD = 隨機深度 (概率) -- 僅圖像塔,D = 丟棄率 (概率) -- 僅圖像塔頭部
LAION-A = LAION 美學,是 LAION-2B 的約 9 億樣本子集,經過 pHash 去重和美學分數過濾。
模型由 Ross Wightman 在 stability.ai 集群上訓練。
用途
根據原始 OpenAI CLIP 模型卡片,該模型旨在作為研究成果供研究社區使用。我們希望該模型能幫助研究人員更好地理解和探索零樣本、任意圖像分類。同時,也希望它能用於跨學科研究,探討此類模型的潛在影響。
OpenAI CLIP 論文討論了潛在的下游影響,為這類分析提供了示例。此外,LAION-5B 博客 (https://laion.ai/blog/laion-5b/) 和即將發表的論文也會針對訓練數據集進行額外討論。
直接用途
零樣本圖像分類、圖像和文本檢索等。
下游用途
圖像分類和其他圖像任務的微調、線性探針圖像分類、圖像生成引導和條件控制等。
不適用場景
根據 OpenAI 模型的規定:
- 任何模型的部署用例(無論是否商業用途)目前都不在適用範圍內。非部署用例,如在受限環境中的圖像搜索,也不建議使用,除非對模型進行特定、固定類別分類法的全面領域內測試。這是因為我們的安全評估表明,特別是考慮到 CLIP 在不同類別分類法下的性能差異,需要進行特定任務的測試。這使得在任何用例中未經測試和不受約束地部署模型目前可能有害。
- 某些屬於監控和人臉識別領域的用例,無論模型性能如何,始終不在適用範圍內。這是因為目前缺乏確保公平使用的測試規範和檢查,使用人工智能進行此類任務可能還為時過早。
- 由於該模型僅在英語上進行訓練和評估,其使用應限於英語用例。
訓練詳情
訓練數據
該模型使用 LAION-2B 進行訓練,它是 LAION-5B 的 20 億樣本英文子集。
⚠️ 重要提示
創建該數據集的目的是推動大規模多模態模型訓練和處理從公開互聯網爬取的未整理大規模數據集的研究和實驗。因此,我們建議將該數據集用於研究目的。請注意,這個大規模數據集是未整理的。要知道,數據集的未整理性質意味著收集的鏈接可能會指向讓人類觀眾極度不適和不安的內容。因此,請謹慎使用演示鏈接,並自行承擔風險。可以通過基於安全標籤過濾樣本(使用我們構建的自定義訓練的 NSFW 分類器)來提取一個“安全”子集。雖然這大大降低了查看時遇到潛在有害內容的可能性,但我們不能完全排除安全模式下仍存在有害內容的可能性,因此警告仍然適用。我們認為,向廣大研究和其他感興趣的社區公開提供該數據集,將有助於透明地研究訓練大規模模型帶來的好處,以及使用封閉的、僅限於小社區的大規模數據集時可能未被報告或注意到的陷阱和危險。然而,我們不建議使用該數據集來創建現成的工業產品,因為關於此類大規模模型的一般屬性和安全性的基礎研究仍在進行中,我們希望通過此次發佈鼓勵這方面的研究。
訓練過程
所有 320x320 模型的微調都使用全局批量大小為 131072,在 10 - 16 個檢查點間隔內,每個間隔 2.037 億樣本,微調過程中總共約有 2 - 3B 樣本。
對於 320x320 模型,在 64 個 8-GPU(A100 40GB)節點(Stability)上使用以下 slurm 腳本和 srun 命令:
/opt/slurm/sbin/srun --cpu_bind=v --accel-bind=gn python -m training.main \
--save-frequency 1 \
--name "convnext_large_320" \
--pretrained ""/runs/convnext_large_256/epoch_128.pt" \
--resume 'latest' \
--train-data="pipe:aws s3 cp s3://mybucket/path/{laion{00000..xxxxx}.tar -" \
--train-num-samples 203666042 \
--dataset-type webdataset \
--precision amp_bfloat16 \
--beta2 0.98 \
--warmup 2000 \
--batch-size=256 \
--epochs=12 \
--dataset-resampled \
--aug-cfg use_timm=True scale='(0.5, 1.0)' re_prob=0.4 \
--clip-grad-norm 5.0 \
--lr 5e-5 \
--workers=6 \
--model "convnext_large_d_320" \
--seed 0 \
--ddp-static-graph \
--local-loss \
--gather-with-grad \
--grad-checkpointing
評估
使用 LAION CLIP 基準套件 中的代碼進行評估。
測試數據、因素和指標
測試數據
使用 VTAB+(VTAB (https://arxiv.org/abs/1910.04867) 與額外的魯棒性數據集的組合)進行分類測試,使用 COCO 和 Flickr 進行檢索測試。
評估結果
該模型在 ImageNet-1k 上的零樣本 Top-1 準確率在 75.9% 到 76.9% 之間。
原始從頭開始 256x256 訓練的零樣本曲線:
已在更廣泛的數據集上進行了初步基準測試,結果可在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。
致謝
感謝 stability.ai 提供訓練該模型的計算資源。
引用
BibTeX:
LAION-5B
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenCLIP 軟件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
@InProceedings{pmlr-v162-wortsman22a,
title = {Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time},
author = {Wortsman, Mitchell and Ilharco, Gabriel and Gadre, Samir Ya and Roelofs, Rebecca and Gontijo-Lopes, Raphael and Morcos, Ari S and Namkoong, Hongseok and Farhadi, Ali and Carmon, Yair and Kornblith, Simon and Schmidt, Ludwig},
booktitle = {Proceedings of the 39th International Conference on Machine Learning},
pages = {23965--23998},
year = {2022},
editor = {Chaudhuri, Kamalika and Jegelka, Stefanie and Song, Le and Szepesvari, Csaba and Niu, Gang and Sabato, Sivan},
volume = {162},
series = {Proceedings of Machine Learning Research},
month = {17--23 Jul},
publisher = {PMLR},
pdf = {https://proceedings.mlr.press/v162/wortsman22a/wortsman22a.pdf},
url = {https://proceedings.mlr.press/v162/wortsman22a.html}
}
OpenAI CLIP 論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
@Article{liu2022convnet,
author = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
title = {A ConvNet for the 2020s},
journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2022},
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
}
📄 許可證
本模型採用 MIT 許可證。









