模型简介
模型特点
模型能力
使用案例
🚀 CLIP-convnext_large_d_320.laion2B-s29B-b131K-ft-soup 模型卡片
本模型是用于零样本图像分类的研究成果,借助CLIP架构和大规模数据集训练,能助力研究者探索零样本图像分类,在图像和文本检索等领域有应用潜力。
🚀 快速开始
本部分将为你提供模型的基本信息、使用场景、训练细节、评估结果等内容,帮助你快速了解和使用该模型。
✨ 主要特性
- 强大架构:采用CLIP ConvNeXt-Large 架构,图像塔使用
timm
的 ConvNeXt-Large 模型,视觉塔采用 MLP 头,文本塔深度增加。 - 高效表现:320x320 分辨率的 ConvNext-Large-D 模型比 OpenAI 微调的 L/14-336 模型更高效,在计算量、激活值和参数数量上更具优势。
- 多场景应用:可用于零样本图像分类、图像和文本检索、图像分类微调、图像生成引导等多种任务。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
文档未提供代码示例,暂不展示。
📚 详细文档
模型详情
一系列基于 OpenCLIP 在 LAION-5B 的 LAION-2B(英文)子集上训练的 CLIP ConvNeXt-Large 模型(额外增加文本深度,视觉 MLP 头)。
模型特点如下:
- 图像塔使用 timm 的 ConvNeXt-Large 模型 (
convnext_large
)。 - 视觉塔采用 MLP (
fc - gelu - drop - fc
) 头,而非其他 CLIP 模型的单一投影。 - 文本塔宽度与 ViT-L / RN50x16 模型相同,但深度增加 4 层(深度 16,嵌入维度 768)。
这个 320x320 分辨率的模型是 CLIP-convnext_large_d.laion2B-s26B-b102K-augreg 在更高分辨率下 3 次微调的集成(权重平均)。它是在原始 256x256 训练运行的最终检查点基础上,每次微调额外增加约 2 - 3B 样本,并使用较低学习率进行微调的平均值。每次微调使用不同的学习率(1e-4、6e-5、5e-5)和不同数量的样本(3.2B、2B、2.5B)。
在 320x320 分辨率下,ConvNext-Large-D 模型比 OpenAI 微调的 336x336 分辨率的 L/14 模型效率显著提高。L/14-336 模型的 GMAC 是其 2.5 倍,激活值是 2.8 倍,参数数量是 1.22 倍。
模型 | 数据集 | 分辨率 | 增强正则化 | ImageNet 零样本 Top-1 准确率 (%) |
---|---|---|---|---|
convnext_large_d.laion2b_s26b_b102k-augreg | LAION-2B | 256x256 | 随机裁剪 (0.33, 1.0),随机擦除 (0.35),随机深度 (0.1),丢弃率 (0.1) | 75.9 |
convnext_large_d_320.laion2b_s29b_b131k-ft | LAION-2B | 320x320 | 随机裁剪 (0.5, 1.0),随机擦除 (0.4),随机深度 (0.1),丢弃率 (0.0) | 76.6 |
convnext_large_d_320.laion2b_s29b_b131k-ft-soup | LAION-2B | 320x320 | 随机裁剪 (0.5, 1.0),随机擦除 (0.4),随机深度 (0.1),丢弃率 (0.0) | 76.9 |
RRC = 随机裁剪 (裁剪比例),RE = 随机擦除 (概率),SD = 随机深度 (概率) -- 仅图像塔,D = 丢弃率 (概率) -- 仅图像塔头部
LAION-A = LAION 美学,是 LAION-2B 的约 9 亿样本子集,经过 pHash 去重和美学分数过滤。
模型由 Ross Wightman 在 stability.ai 集群上训练。
用途
根据原始 OpenAI CLIP 模型卡片,该模型旨在作为研究成果供研究社区使用。我们希望该模型能帮助研究人员更好地理解和探索零样本、任意图像分类。同时,也希望它能用于跨学科研究,探讨此类模型的潜在影响。
OpenAI CLIP 论文讨论了潜在的下游影响,为这类分析提供了示例。此外,LAION-5B 博客 (https://laion.ai/blog/laion-5b/) 和即将发表的论文也会针对训练数据集进行额外讨论。
直接用途
零样本图像分类、图像和文本检索等。
下游用途
图像分类和其他图像任务的微调、线性探针图像分类、图像生成引导和条件控制等。
不适用场景
根据 OpenAI 模型的规定:
- 任何模型的部署用例(无论是否商业用途)目前都不在适用范围内。非部署用例,如在受限环境中的图像搜索,也不建议使用,除非对模型进行特定、固定类别分类法的全面领域内测试。这是因为我们的安全评估表明,特别是考虑到 CLIP 在不同类别分类法下的性能差异,需要进行特定任务的测试。这使得在任何用例中未经测试和不受约束地部署模型目前可能有害。
- 某些属于监控和人脸识别领域的用例,无论模型性能如何,始终不在适用范围内。这是因为目前缺乏确保公平使用的测试规范和检查,使用人工智能进行此类任务可能还为时过早。
- 由于该模型仅在英语上进行训练和评估,其使用应限于英语用例。
训练详情
训练数据
该模型使用 LAION-2B 进行训练,它是 LAION-5B 的 20 亿样本英文子集。
⚠️ 重要提示
创建该数据集的目的是推动大规模多模态模型训练和处理从公开互联网爬取的未整理大规模数据集的研究和实验。因此,我们建议将该数据集用于研究目的。请注意,这个大规模数据集是未整理的。要知道,数据集的未整理性质意味着收集的链接可能会指向让人类观众极度不适和不安的内容。因此,请谨慎使用演示链接,并自行承担风险。可以通过基于安全标签过滤样本(使用我们构建的自定义训练的 NSFW 分类器)来提取一个“安全”子集。虽然这大大降低了查看时遇到潜在有害内容的可能性,但我们不能完全排除安全模式下仍存在有害内容的可能性,因此警告仍然适用。我们认为,向广大研究和其他感兴趣的社区公开提供该数据集,将有助于透明地研究训练大规模模型带来的好处,以及使用封闭的、仅限于小社区的大规模数据集时可能未被报告或注意到的陷阱和危险。然而,我们不建议使用该数据集来创建现成的工业产品,因为关于此类大规模模型的一般属性和安全性的基础研究仍在进行中,我们希望通过此次发布鼓励这方面的研究。
训练过程
所有 320x320 模型的微调都使用全局批量大小为 131072,在 10 - 16 个检查点间隔内,每个间隔 2.037 亿样本,微调过程中总共约有 2 - 3B 样本。
对于 320x320 模型,在 64 个 8-GPU(A100 40GB)节点(Stability)上使用以下 slurm 脚本和 srun 命令:
/opt/slurm/sbin/srun --cpu_bind=v --accel-bind=gn python -m training.main \
--save-frequency 1 \
--name "convnext_large_320" \
--pretrained ""/runs/convnext_large_256/epoch_128.pt" \
--resume 'latest' \
--train-data="pipe:aws s3 cp s3://mybucket/path/{laion{00000..xxxxx}.tar -" \
--train-num-samples 203666042 \
--dataset-type webdataset \
--precision amp_bfloat16 \
--beta2 0.98 \
--warmup 2000 \
--batch-size=256 \
--epochs=12 \
--dataset-resampled \
--aug-cfg use_timm=True scale='(0.5, 1.0)' re_prob=0.4 \
--clip-grad-norm 5.0 \
--lr 5e-5 \
--workers=6 \
--model "convnext_large_d_320" \
--seed 0 \
--ddp-static-graph \
--local-loss \
--gather-with-grad \
--grad-checkpointing
评估
使用 LAION CLIP 基准套件 中的代码进行评估。
测试数据、因素和指标
测试数据
使用 VTAB+(VTAB (https://arxiv.org/abs/1910.04867) 与额外的鲁棒性数据集的组合)进行分类测试,使用 COCO 和 Flickr 进行检索测试。
评估结果
该模型在 ImageNet-1k 上的零样本 Top-1 准确率在 75.9% 到 76.9% 之间。
原始从头开始 256x256 训练的零样本曲线:
已在更广泛的数据集上进行了初步基准测试,结果可在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。
致谢
感谢 stability.ai 提供训练该模型的计算资源。
引用
BibTeX:
LAION-5B
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenCLIP 软件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
@InProceedings{pmlr-v162-wortsman22a,
title = {Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time},
author = {Wortsman, Mitchell and Ilharco, Gabriel and Gadre, Samir Ya and Roelofs, Rebecca and Gontijo-Lopes, Raphael and Morcos, Ari S and Namkoong, Hongseok and Farhadi, Ali and Carmon, Yair and Kornblith, Simon and Schmidt, Ludwig},
booktitle = {Proceedings of the 39th International Conference on Machine Learning},
pages = {23965--23998},
year = {2022},
editor = {Chaudhuri, Kamalika and Jegelka, Stefanie and Song, Le and Szepesvari, Csaba and Niu, Gang and Sabato, Sivan},
volume = {162},
series = {Proceedings of Machine Learning Research},
month = {17--23 Jul},
publisher = {PMLR},
pdf = {https://proceedings.mlr.press/v162/wortsman22a/wortsman22a.pdf},
url = {https://proceedings.mlr.press/v162/wortsman22a.html}
}
OpenAI CLIP 论文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
@Article{liu2022convnet,
author = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
title = {A ConvNet for the 2020s},
journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2022},
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
}
📄 许可证
本模型采用 MIT 许可证。









