CLIP-convnext_base_w-laion2B-s13B-b82K开源模型 - 支持零样本图像分类与图文检索

首页

CLIP Convnext Base W Laion2b S13b B82k

由 laion 开发

基于ConvNeXt-Base架构的CLIP模型，在LAION-5B子集上训练，支持零样本图像分类和图文检索任务

文本生成图像

Safetensors

开源协议:MIT #零样本图像分类 #ConvNeXt架构 #多模态检索

下载量 4,522

发布时间 : 1/3/2023

模型简介

该模型是使用OpenCLIP框架训练的CLIP模型变体，采用ConvNeXt-Base作为图像编码器，在LAION-5B数据集子集上训练，具有优秀的零样本图像分类能力

模型特点

ConvNeXt架构

采用ConvNeXt-Base作为图像编码器，探索替代ViT和ResNet的CLIP模型架构

增强正则化

使用随机调整裁剪、随机擦除和随机深度等增强技术提高模型性能

高分辨率训练

在320x320高分辨率下训练，提升图像识别能力

大规模训练

在LAION-5B数据集子集上训练13B样本，具有优秀的样本效率

模型能力

零样本图像分类

图像文本检索

跨模态表示学习

使用案例

计算机视觉

图像分类

无需微调即可对图像进行分类

ImageNet零样本准确率71.7%

图文检索

实现图像到文本或文本到图像的检索

研究

多模态研究

用于研究视觉语言联合表示学习

🚀 CLIP - convnext_base_w - 320.laion2B - s13B - b82K模型卡片

本模型是一系列基于ConvNeXt - Base架构的CLIP模型，在特定数据集上训练，旨在助力零样本图像分类研究，为科研人员探索图像分类提供新工具。

🚀 快速开始

此模型主要作为研究输出供科研社区使用。若你希望深入了解和探索零样本、任意图像分类，或开展相关跨学科研究，可参考以下内容进一步使用该模型。

✨ 主要特性

采用ConvNeXt - Base架构，是已知在CLIP ViT - B/16和RN50x4模型规模范围内首次大规模训练的ConvNeXt CLIP模型。
探索了通过增加增强和正则化（如更大范围的随机裁剪、随机擦除、随机深度）来优化图像塔。
所有模型在13B样本上训练，ImageNet零样本top - 1准确率达到 >= 70.8%，表明ConvNeXt架构在该模型规模范围内可能更具样本效率。

📦 安装指南

文档未提及具体安装步骤，暂无法提供。

💻 使用示例

基础用法

文档未提供基础用法的代码示例，暂无法展示。

高级用法

文档未提供高级用法的代码示例，暂无法展示。

📚 详细文档

模型详情

模型描述

一系列基于CLIP的ConvNeXt - Base（宽嵌入维度）模型，使用OpenCLIP（https://github.com/mlfoundations/open_clip）在LAION - 5B（https://laion.ai/blog/laion - 5b/）的子集上训练。

目标：

探索ViT和ResNet（带注意力池化）CLIP模型的替代方案，使其能随模型大小和图像分辨率良好扩展。

首创：

首次在CLIP ViT - B/16和RN50x4模型规模范围内大规模训练的ConvNeXt CLIP模型。
首次发布通过增加增强和正则化（更大范围的随机裁剪、随机擦除、随机深度）来探索图像塔优化的模型权重。

这些模型使用[timm](https://github.com/rwightman/pytorch - image - models)的ConvNeXt - Base模型（convnext_base）作为图像塔，文本塔与OpenAI CLIP的RN50x4（深度12，嵌入维度640）模型相同。基础模型在256x256图像分辨率下训练，在FLOPs和激活计数上大致与RN50x4模型匹配。名称中包含320的模型在320x320分辨率下训练。

该系列所有模型在13B样本上训练，ImageNet零样本top - 1准确率达到 >= 70.8%。与34B样本下零样本准确率为70.2%（13B样本下为68.1%）的ViT - B/16相比，表明ConvNeXt架构在该模型规模范围内可能更具样本效率，不过还需更多实验验证。

模型	数据集	分辨率	增强正则化	ImageNet零样本top - 1准确率(%)
[convnext_base_w.laion2b_s13b_b82k](https://huggingface.co/laion/CLIP - convnext_base_w - laion2B - s13B - b82K)	LAION - 2B	256x256	随机裁剪(0.9, 1.0)	70.8
[convnext_base_w.laion2b_s13b_b82k_augreg](https://huggingface.co/laion/CLIP - convnext_base_w - laion2B - s13B - b82K - augreg)	LAION - 2B	256x256	随机裁剪(0.33, 1.0)，随机擦除(0.35)，随机深度(0.1)	71.5
[convnext_base_w.laion_aesthetic_s13b_b82k](https://huggingface.co/laion/CLIP - convnext_base_w - laion_aesthetic - s13B - b82K)	LAION - A	256x256	随机裁剪(0.9, 1.0)	71.0
[convnext_base_w_320.laion_aesthetic_s13b_b82k](https://huggingface.co/laion/CLIP - convnext_base_w_320 - laion_aesthetic - s13B - b82K)	LAION - A	320x320	随机裁剪(0.9, 1.0)	71.7
[convnext_base_w_320.laion_aesthetic_s13b_b82k_augreg](https://huggingface.co/laion/CLIP - convnext_base_w_320 - laion_aesthetic - s13B - b82K - augreg)	LAION - A	320x320	随机裁剪(0.33, 1.0)，随机擦除(0.35)，随机深度(0.1)	71.3

随机裁剪 = 随机调整裁剪（裁剪比例），随机擦除 = 随机擦除（概率），随机深度 = 随机深度（概率） - 仅针对图像塔。

LAION - A = LAION Aesthetic，是LAION - 2B的约9亿样本子集，经过pHash去重和美学分数过滤。

模型训练由Ross Wightman在stability.ai集群和[JUWELS Booster](https://apps.fz - juelich.de/jsc/hps/juwels/booster - overview.html)超级计算机上完成。

用途

直接用途

零样本图像分类、图像和文本检索等。

下游用途

图像分类和其他图像任务微调、线性探针图像分类、图像生成引导和条件控制等。

非适用用途

与OpenAI模型一样，目前模型的任何部署用例（无论是否商业用途）均不在适用范围内。非部署用例（如在受限环境中的图像搜索）也不建议使用，除非对模型进行了特定、固定类别分类法的全面领域内测试。因为安全评估表明，鉴于CLIP在不同类别分类法下性能的可变性，非常需要进行特定任务测试。这使得在未经测试和不受约束的情况下部署模型在任何用例中目前都可能有害。

某些属于监控和人脸识别领域的用例，无论模型性能如何，始终不在适用范围内。因为目前缺乏确保公平使用的测试规范和检查，使用人工智能进行此类任务可能还不成熟。

由于该模型未在英语以外的语言上进行专门训练和评估，其使用应限于英语用例。

训练详情

训练数据

该模型在以下数据子集上训练：

LAION - 2B - LAION - 5B的20亿样本英语子集（https://laion.ai/blog/laion - 5b/）。
LAION - Aesthetic - LAION - 2B的9亿样本子集，经过pHash去重和美学分数过滤。

⚠️ 重要提示

数据集创建的目的是推动大规模多模态模型训练和处理未整理的大规模互联网爬取数据集的研究和实验。建议将数据集用于研究目的。需注意，该大规模数据集未经过整理，收集的链接可能包含令人不适和不安的内容。因此，请谨慎使用演示链接，并自行承担风险。可以通过基于安全标签过滤样本（使用我们构建的自定义训练的NSFW分类器）提取“安全”子集。虽然这大大降低了查看时遇到潜在有害内容的可能性，但我们不能完全排除安全模式下仍存在有害内容的可能性，因此警告仍然适用。我们认为向广泛的研究和其他感兴趣的社区公开提供数据集，将有助于透明地研究训练大规模模型带来的好处，以及在使用封闭的、仅限于小社区的大型数据集时可能未被报告或注意到的陷阱和危险。然而，我们不建议使用该数据集创建现成的工业产品，因为关于此类大规模模型的一般属性和安全性的基础研究仍在进行中。

训练过程

所有模型使用全局批量大小81920，在64个检查点间隔（每个间隔2.037亿样本）上训练，总共约13B样本。

对于256x256模型，在20个8 - GPU（A100 40GB）节点（Stability）上使用以下slurm脚本和srun命令，在JUWELS上切换到40个4 - GPU节点：

/opt/slurm/sbin/srun --cpu_bind=v --accel-bind=gn python -m training.main \
    --save-frequency 1 \
    --name "convnext_256" \
    --resume 'latest' \
    --train-data="pipe:aws s3 cp s3://mybucket/path/{laion{00000..xxxxx}.tar -" \
    --train-num-samples 203666042 \
    --dataset-type webdataset \
    --precision amp_bfloat16 \
    --warmup 10000 \
    --batch-size=512 \
    --epochs=64 \
    --dataset-resampled \
    --clip-grad-norm 5.0 \
    --lr 1e-3 \
    --workers=6 \
    --model "convnext_base_w" \
    --seed 0 \
    --ddp-static-graph \
    --local-loss \
    --gather-with-grad \
    --grad-checkpointing

对于320x320模型，与上述相同，但使用32个8 - GPU节点，本地批量大小320，或在JUWELs上使用64个4 - GPU节点。

评估

评估使用[LAION CLIP Benchmark suite](https://github.com/LAION - AI/CLIP_benchmark)中的代码进行。

测试数据、因素和指标

测试数据

测试使用VTAB +（VTAB（https://arxiv.org/abs/1910.04867）与额外鲁棒性数据集的组合）进行分类，使用COCO和Flickr进行检索。

结果

模型在ImageNet - 1k上的零样本top - 1准确率在70.8%到71.7%之间。

模型评估结果

已在更广泛的数据集上进行了初步基准测试，可在https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。

作为探索增加增强和正则化的一部分，早期评估表明，augreg训练的模型在更广泛的分辨率范围内表现良好。特别是对于320x320的LAION - A模型，在320x320训练分辨率下评估时，augreg运行的准确率低于非augreg（71.3 vs 71.7），但在384x384分辨率下评估时提高到72.2%（非augreg在384x384时降至71.0%）。

🔧 技术细节

文档未提供足够详细的技术实现细节，暂无法展示。

📄 许可证

本项目采用MIT许可证。

致谢

感谢stability.ai和高斯超级计算中心（http://gauss - centre.eu）通过于利希超级计算中心（JSC）的GCS超级计算机JUWELS Booster上的约翰·冯·诺伊曼计算研究所（NIC）提供计算时间，资助了这部分工作。

引用

BibTeX:

LAION - 5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenCLIP软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

OpenAI CLIP论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

@Article{liu2022convnet,
  author  = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
  title   = {A ConvNet for the 2020s},
  journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year    = {2022},
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
}