模型简介
模型特点
模型能力
使用案例
🚀 CLIP - ConvNeXt Base W 模型卡
本项目基于OpenCLIP训练了一系列CLIP ConvNeXt - Base(宽嵌入维度)模型,旨在探索零样本图像分类,为研究社区提供研究输出,助力相关领域的研究与探索。
🚀 快速开始
本模型主要用于研究,如果你想使用该模型进行零样本图像分类、图像和文本检索等任务,可参考以下内容了解模型详情、训练细节和评估结果。
✨ 主要特性
- 架构创新:是已知首批在CLIP ViT - B/16和RN50x4模型规模范围内大规模训练的ConvNeXt CLIP模型。
- 性能优越:在ImageNet零样本top - 1准确率上达到了>= 70.8%,表明ConvNeXt架构在该模型规模范围内可能更具样本效率。
- 多场景适用:可用于零样本图像分类、图像和文本检索,也可进行图像分类等下游任务的微调。
📚 详细文档
模型详情
模型描述
一系列基于OpenCLIP(https://github.com/mlfoundations/open_clip)在LAION - 5B(https://laion.ai/blog/laion - 5b/)子集上训练的CLIP ConvNeXt - Base(宽嵌入维度)模型。
目标:
- 探索一种替代ViT和ResNet(带AttentionPooling)的CLIP模型,使其在模型大小和图像分辨率方面具有良好的扩展性。
首创:
- 首批已知在CLIP ViT - B/16和RN50x4模型规模范围内大规模训练的ConvNeXt CLIP模型。
- 首个发布的模型权重,通过添加(更大范围的随机裁剪、随机擦除、随机深度)探索了图像塔增强和正则化的增加。
这些模型使用[timm](https://github.com/rwightman/pytorch - image - models)的ConvNeXt - Base模型(convnext_base
)作为图像塔,文本塔与OpenAI CLIP的RN50x4(深度12,嵌入维度640)模型相同。基础模型在256x256图像分辨率下训练,在FLOPs和激活计数方面大致与RN50x4模型匹配。名称中包含320
的模型在320x320分辨率下训练。
所有系列模型均训练了13B个样本,在ImageNet零样本top - 1准确率上达到了>= 70.8%。与34B样本的ViT - B/16零样本准确率70.2%(13B样本为68.1%)相比,这表明ConvNeXt架构在该模型规模范围内可能更具样本效率,但仍需更多实验确认。
模型 | 数据集 | 分辨率 | 增强正则化 | ImageNet零样本top - 1准确率(%) |
---|---|---|---|---|
[convnext_base_w.laion2b_s13b_b82k](https://huggingface.co/laion/CLIP - convnext_base_w - laion2B - s13B - b82K) | LAION - 2B | 256x256 | RRC (0.9, 1.0) | 70.8 |
[convnext_base_w.laion2b_s13b_b82k_augreg](https://huggingface.co/laion/CLIP - convnext_base_w - laion2B - s13B - b82K - augreg) | LAION - 2B | 256x256 | RRC (0.33, 1.0), RE (0.35), SD (0.1) | 71.5 |
[convnext_base_w.laion_aesthetic_s13b_b82k](https://huggingface.co/laion/CLIP - convnext_base_w - laion_aesthetic - s13B - b82K) | LAION - A | 256x256 | RRC (0.9, 1.0) | 71.0 |
[convnext_base_w_320.laion_aesthetic_s13b_b82k](https://huggingface.co/laion/CLIP - convnext_base_w_320 - laion_aesthetic - s13B - b82K) | LAION - A | 320x320 | RRC (0.9, 1.0) | 71.7 |
[convnext_base_w_320.laion_aesthetic_s13b_b82k_augreg](https://huggingface.co/laion/CLIP - convnext_base_w_320 - laion_aesthetic - s13B - b82K - augreg) | LAION - A | 320x320 | RRC (0.33, 1.0), RE (0.35), SD (0.1) | 71.3 |
RRC = 随机裁剪(裁剪比例),RE = 随机擦除(概率),SD = 随机深度(概率) - 仅适用于图像塔
LAION - A = LAION美学数据集,是LAION - 2B的一个约9亿样本子集,经过pHash去重和美学分数过滤。
模型训练由Ross Wightman在stability.ai集群和[JUWELS Booster](https://apps.fz - juelich.de/jsc/hps/juwels/booster - overview.html)超级计算机上完成。详情见下方致谢部分。
用途
直接用途
零样本图像分类、图像和文本检索等。
下游用途
图像分类和其他图像任务的微调、线性探针图像分类、图像生成引导和条件化等。
不适用场景
与OpenAI模型一样,目前模型的任何部署用例(无论是否商业用途)都超出了范围。非部署用例,如在受限环境中的图像搜索,除非对模型进行了特定、固定类别分类法的全面领域内测试,否则也不建议使用。这是因为我们的安全评估表明,特别是考虑到CLIP在不同类别分类法下性能的可变性,非常需要进行特定任务的测试。这使得目前在任何用例中未经测试和无约束地部署模型都可能有害。
某些属于监控和人脸识别领域的用例,无论模型性能如何,始终不在适用范围内。这是因为目前在缺乏确保公平使用的测试规范和检查的情况下,将人工智能用于此类任务可能还为时过早。
由于该模型未针对英语以外的任何语言进行专门训练或评估,其使用应限于英语用例。
此外,用于训练这些模型的LAION - 5B数据集还有其他注意事项,详见下文。
训练详情
训练数据
该模型使用以下数据集之一进行训练(见简介中的表格):
- LAION - 2B - LAION - 5B的一个20亿样本英语子集(https://laion.ai/blog/laion - 5b/)。
- LAION美学数据集 - LAION - 2B的一个9亿样本子集,经过pHash去重和美学分数过滤。
⚠️ 重要提示
创建该数据集的动机是使大规模多模态模型训练和处理从公共互联网爬取的未整理大规模数据集的研究和实验民主化。因此,我们建议将该数据集用于研究目的。请注意,这个大规模数据集是未整理的。要知道,数据集的未整理性质意味着收集的链接可能会指向让人类观看者非常不适和不安的内容。因此,请谨慎使用演示链接,并自行承担风险。可以通过基于安全标签过滤样本(使用我们构建的自定义训练的NSFW分类器)提取一个“安全”子集。虽然这大大降低了查看时遇到潜在有害内容的可能性,但我们不能完全排除安全模式下仍存在有害内容的可能性,因此该警告同样适用。我们认为,向广泛的研究和其他感兴趣的社区公开提供该数据集,将有助于透明地研究训练大规模模型带来的好处,以及在使用仅限于小社区的封闭大型数据集时可能未报告或未注意到的陷阱和危险。然而,我们公开提供数据集并不意味着建议将其用于创建现成的工业产品,因为我们希望通过此次发布鼓励的关于此类大规模模型的一般属性和安全性的基础研究仍在进行中。
训练过程
所有模型均使用81920的全局批次大小进行训练,共进行64个检查点间隔,每个间隔2.037亿个样本,训练过程中总共处理了约130亿个样本。
对于256x256分辨率的模型,在20个8 - GPU(A100 40GB)节点(Stability)上使用以下slurm脚本(srun),在JUWELS上切换到40个4 - GPU节点。
/opt/slurm/sbin/srun --cpu_bind=v --accel_bind=gn python -m training.main \
--save-frequency 1 \
--name "convnext_256" \
--resume 'latest' \
--train-data="pipe:aws s3 cp s3://mybucket/path/{laion{00000..xxxxx}.tar -" \
--train-num-samples 203666042 \
--dataset-type webdataset \
--precision amp_bfloat16 \
--warmup 10000 \
--batch-size=512 \
--epochs=64 \
--dataset-resampled \
--clip-grad-norm 5.0 \
--lr 1e-3 \
--workers=6 \
--model "convnext_base_w" \
--seed 0 \
--ddp-static-graph \
--local-loss \
--gather-with-grad \
--grad-checkpointing
对于320x320分辨率的模型,与上述相同,但使用32个8 - GPU节点,本地批次大小为320,或在JUWELs上使用64个4 - GPU节点。
评估
评估使用[LAION CLIP Benchmark套件](https://github.com/LAION - AI/CLIP_benchmark)中的代码进行。
测试数据、因素和指标
测试数据
分类任务使用VTAB +(VTAB(https://arxiv.org/abs/1910.04867)与其他鲁棒性数据集的组合),检索任务使用COCO和Flickr。
结果
这些模型在ImageNet - 1k上的零样本top - 1准确率在70.8%至71.7%之间。
已在更广泛的数据集上进行了初步基准测试,可在https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。
作为探索增加增强和正则化的一部分,早期评估表明,经过augreg
训练的模型在更广泛的分辨率范围内表现良好。对于320x320的LAION - A模型尤其如此,在320x320的训练分辨率下评估时,augreg
运行的结果低于非augreg
运行(71.3%对71.7%),但在384x384分辨率下评估时提高到72.2%(非augreg
在384x384分辨率下降至71.0%)。
致谢
感谢stability.ai和高斯超级计算中心(http://gauss - centre.eu),通过于利希超级计算中心(JSC)的约翰·冯·诺伊曼计算研究所(NIC)提供计算时间,资助了这部分工作。
引用
BibTeX引用:
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenCLIP软件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
OpenAI CLIP论文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
@Article{liu2022convnet,
author = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
title = {A ConvNet for the 2020s},
journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2022},
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
}
许可证
本项目采用MIT许可证。









