模型概述
模型特點
模型能力
使用案例
🚀 CLIP-convnext_base_w-320.laion_aesthetic-s13B-b82k-augreg模型卡片
本模型是一系列基於OpenCLIP在LAION-5B子集上訓練的CLIP ConvNeXt-Base(寬嵌入維度)模型,旨在探索可隨模型大小和圖像分辨率良好擴展的CLIP模型,助力零樣本圖像分類等研究。
🚀 快速開始
本模型可用於零樣本圖像分類、圖像和文本檢索等任務。若你想使用該模型,可參考以下文檔瞭解使用方法和注意事項。
✨ 主要特性
- 架構創新:採用ConvNeXt-Base作為圖像塔,探索了替代ViT和ResNet的CLIP模型架構。
- 樣本高效:在一定模型規模範圍內,ConvNeXt架構可能比ViT-B/16更具樣本效率。
- 多分辨率訓練:提供不同分辨率(256x256和320x320)的模型,以適應不同任務需求。
📦 安裝指南
文檔未提及具體安裝步驟,可參考OpenCLIP官方倉庫(https://github.com/mlfoundations/open_clip)獲取安裝指導。
💻 使用示例
文檔未提供代碼示例,你可以參考OpenCLIP的使用文檔進行模型調用和推理。
📚 詳細文檔
模型詳情
一系列基於OpenCLIP在LAION-5B子集上訓練的CLIP ConvNeXt-Base(寬嵌入維度)模型。
目標:
- 探索可隨模型大小和圖像分辨率良好擴展的ViT和ResNet(帶注意力池化)CLIP模型的替代方案。
首次嘗試:
- 首次在CLIP ViT-B/16和RN50x4模型規模範圍內訓練的ConvNeXt CLIP模型。
- 首次發佈通過增加增強和正則化(更大範圍的隨機裁剪、隨機擦除、隨機深度)探索圖像塔改進的模型權重。
模型使用timm的ConvNeXt-Base模型(convnext_base
)作為圖像塔,文本塔與OpenAI CLIP的RN50x4模型(深度12,嵌入維度640)相同。基礎模型在256x256圖像分辨率下訓練,FLOPs和激活計數與RN50x4模型大致匹配。名稱中包含320
的模型在320x320分辨率下訓練。
該系列所有模型均在13B樣本上訓練,ImageNet零樣本top-1準確率>=70.8%。與34B樣本下零樣本準確率為70.2%(13B樣本下為68.1%)的ViT-B/16相比,表明ConvNeXt架構在該模型規模範圍內可能更具樣本效率,但需更多實驗驗證。
模型 | 數據集 | 分辨率 | 增強正則化 | ImageNet零樣本top-1準確率(%) |
---|---|---|---|---|
convnext_base_w.laion2b_s13b_b82k | LAION-2B | 256x256 | RRC (0.9, 1.0) | 70.8 |
convnext_base_w.laion2b_s13b_b82k_augreg | LAION-2B | 256x256 | RRC (0.33, 1.0), RE (0.35), SD (0.1) | 71.5 |
convnext_base_w.laion_aesthetic_s13b_b82k | LAION-A | 256x256 | RRC (0.9, 1.0) | 71.0 |
convnext_base_w_320.laion_aesthetic_s13b_b82k | LAION-A | 320x320 | RRC (0.9, 1.0) | 71.7 |
convnext_base_w_320.laion_aesthetic_s13b_b82k_augreg | LAION-A | 320x320 | RRC (0.33, 1.0), RE (0.35), SD (0.1) | 71.3 |
RRC = 隨機裁剪(裁剪比例),RE = 隨機擦除(概率),SD = 隨機深度(概率) - 僅適用於圖像塔
LAION-A = LAION美學數據集,是LAION-2B的約9億樣本子集,經過pHash去重和美學分數過濾。
模型訓練由Ross Wightman在stability.ai集群和JUWELS Booster超級計算機上完成。
用途
直接用途
零樣本圖像分類、圖像和文本檢索等。
下游用途
圖像分類和其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件化等。
不適用場景
- 目前,模型的任何部署用例(無論是否商業用途)均超出範圍。除非對模型進行特定固定類別分類法的徹底領域內測試,否則不建議在受限環境中進行圖像搜索等非部署用例。因為安全評估表明,鑑於CLIP在不同類別分類法下性能的可變性,需要進行特定任務測試,未經測試和無約束的模型部署可能有害。
- 涉及監控和人臉識別領域的用例始終超出範圍,因為目前缺乏確保公平使用的測試規範和檢查,使用人工智能進行此類任務尚不成熟。
- 由於模型僅在英語環境下訓練和評估,其使用應限於英語用例。
訓練詳情
訓練數據
模型在以下數據集之一上訓練:
- LAION-2B:LAION-5B的20億樣本英語子集(https://laion.ai/blog/laion-5b/)。
- LAION-Aesthetic:LAION-2B的9億樣本子集,經過pHash去重和美學分數過濾。
重要提示:數據集創建的目的是推動大規模多模態模型訓練和處理未整理的大規模互聯網爬取數據集的研究。建議僅用於研究目的。該大規模數據集未經過整理,其中的鏈接可能包含令人不適和不安的內容。請謹慎使用演示鏈接並自行承擔風險。可以通過安全標籤過濾(使用自定義訓練的NSFW分類器)提取“安全”子集,但不能完全排除有害內容的存在。目前不建議使用該數據集創建工業產品,因為關於此類大規模模型的基本屬性和安全性的研究仍在進行中。
訓練過程
所有模型在全局批量大小為81920的情況下訓練,共64個檢查點間隔,每個間隔2.037億樣本,總計約13B樣本。
對於256x256模型,在20個8-GPU(A100 40GB)節點(Stability)上使用以下slurm腳本,在JUWELS上切換到40個4-GPU節點:
/opt/slurm/sbin/srun --cpu_bind=v --accel-bind=gn python -m training.main \
--save-frequency 1 \
--name "convnext_256" \
--resume 'latest' \
--train-data="pipe:aws s3 cp s3://mybucket/path/{laion{00000..xxxxx}.tar -" \
--train-num-samples 203666042 \
--dataset-type webdataset \
--precision amp_bfloat16 \
--warmup 10000 \
--batch-size=512 \
--epochs=64 \
--dataset-resampled \
--clip-grad-norm 5.0 \
--lr 1e-3 \
--workers=6 \
--model "convnext_base_w" \
--seed 0 \
--ddp-static-graph \
--local-loss \
--gather-with-grad \
--grad-checkpointing
對於320x320模型,使用32個8-GPU節點,本地批量大小320,或在JUWELs上使用64個4-GPU節點。
評估
評估使用LAION CLIP Benchmark suite中的代碼進行。
測試數據、因素和指標
- 測試數據:分類任務使用VTAB+(VTAB與額外魯棒性數據集的組合),檢索任務使用COCO和Flickr。
結果
模型在ImageNet-1k上的零樣本top-1準確率在70.8%至71.7%之間。
已在更廣泛的數據集上進行了初步基準測試,結果可在https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。
在探索增強和正則化的過程中,早期評估表明,augreg
訓練的模型在更廣泛的分辨率範圍內表現良好。特別是320x320的LAION-A模型,在320x320訓練分辨率下,augreg
運行的準確率低於非augreg
(71.3% vs 71.7%),但在384x384評估時提高到72.2%(非augreg
降至71.0%)。
致謝
感謝stability.ai和高斯超級計算中心(http://gauss-centre.eu)通過約翰·馮·諾伊曼計算研究所(NIC)在於利希超級計算中心(JSC)的GCS超級計算機JUWELS Booster上提供計算時間,資助了這項工作。
引用
BibTeX:
LAION-5B
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenCLIP軟件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
OpenAI CLIP論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
@Article{liu2022convnet,
author = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
title = {A ConvNet for the 2020s},
journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2022},
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
}
📄 許可證
本項目採用MIT許可證。









