CLIP-convnext_base_w-laion_aesthetic-s13B-b82K開源模型 - 支持零樣本圖像分類與跨模態檢索

首頁

CLIP Convnext Base W Laion Aesthetic S13b B82k

由laion開發

基於LAION-Aesthetic數據集訓練的ConvNeXt-Base架構CLIP模型，支持零樣本圖像分類和跨模態檢索任務

文本生成圖像

TensorBoard

開源協議:MIT #零樣本圖像分類 #ConvNeXt架構 #美學數據集訓練

下載量 703

發布時間 : 1/3/2023

模型概述

該模型是使用OpenCLIP框架在LAION-Aesthetic數據集上訓練的ConvNeXt-Base架構CLIP模型，探索了ConvNeXt作為ViT和ResNet替代架構的可能性，在圖像分類任務中表現出色。

模型特點

ConvNeXt架構創新

首批大規模訓練的ConvNeXt CLIP模型，探索了該架構在CLIP任務中的潛力

增強訓練策略

採用隨機調整裁剪、隨機擦除和隨機深度等增強技術提升模型性能

高樣本效率

在130億樣本訓練下即達到71%+的ImageNet零樣本準確率，優於ViT-B/16在相同樣本量下的表現

多分辨率支持

提供256x256和320x320兩種分辨率版本，適應不同應用場景需求

模型能力

零樣本圖像分類

圖像文本匹配

跨模態檢索

圖像特徵提取

使用案例

內容檢索

圖像搜索引擎

基於文本查詢檢索相關圖像

反向圖像搜索

基於圖像內容查找相似或相關圖像

分類系統

零樣本分類

無需微調即可對新類別進行分類

ImageNet-1k上71.0%準確率

🚀 CLIP-convnext_base_w.laion_aesthetic-s13B-b82k模型

本模型是一系列基於CLIP架構的模型，使用OpenCLIP在LAION-5B子集上訓練，旨在探索零樣本、任意圖像分類，為研究社區提供研究輸出。

🚀 快速開始

模型詳情

模型描述

這是一系列基於CLIP的ConvNeXt-Base（寬嵌入維度）模型，使用OpenCLIP（https://github.com/mlfoundations/open_clip）在LAION-5B（https://laion.ai/blog/laion-5b/）的子集上進行訓練。

目標：

探索一種可替代ViT和ResNet（帶注意力池化）的CLIP模型，使其在模型大小和圖像分辨率方面具有良好的擴展性。

首創：

已知首個在CLIP ViT-B/16和RN50x4模型規模範圍內進行大規模訓練的ConvNeXt CLIP模型。
首個發佈的模型權重，通過增加（更大規模範圍的隨機裁剪、隨機擦除、隨機深度）探索了圖像塔增強和正則化的增加。

這些模型使用timm的ConvNeXt-Base模型（convnext_base）作為圖像塔，並使用與OpenAI CLIP的RN50x4（深度12，嵌入維度640）模型相同的文本塔。基礎模型在256x256圖像分辨率下訓練，在浮點運算次數和激活計數方面大致與RN50x4模型匹配。名稱中包含320的模型在320x320分辨率下訓練。

該系列的所有模型均在130億個樣本上進行訓練，在ImageNet零樣本top-1準確率上達到了>=70.8%。與在340億個樣本上訓練的ViT-B/16模型（零樣本準確率為70.2%，在130億個樣本上訓練時為68.1%）相比，這表明ConvNeXt架構在該模型規模範圍內可能具有更高的樣本效率。不過，還需要更多實驗來證實這一點。

模型	數據集	分辨率	增強正則化	ImageNet零樣本top-1準確率(%)
convnext_base_w.laion2b_s13b_b82k	LAION-2B	256x256	RRC (0.9, 1.0)	70.8
convnext_base_w.laion2b_s13b_b82k_augreg	LAION-2B	256x256	RRC (0.33, 1.0), RE (0.35), SD (0.1)	71.5
convnext_base_w.laion_aesthetic_s13b_b82k	LAION-A	256x256	RRC (0.9, 1.0)	71.0
convnext_base_w_320.laion_aesthetic_s13b_b82k	LAION-A	320x320	RRC (0.9, 1.0)	71.7
convnext_base_w_320.laion_aesthetic_s13b_b82k_augreg	LAION-A	320x320	RRC (0.33, 1.0), RE (0.35), SD (0.1)	71.3

RRC = 隨機裁剪（裁剪百分比），RE = 隨機擦除（概率），SD = 隨機深度（概率）——僅適用於圖像塔。

LAION-A = LAION美學數據集，是LAION-2B的一個約9億樣本子集，經過pHash去重和美學分數過濾。

模型訓練由Ross Wightman在stability.ai集群和JUWELS Booster超級計算機上完成。詳情見下文致謝部分。

用途

根據原始的OpenAI CLIP模型卡片，該模型旨在作為研究成果供研究社區使用。我們希望該模型能幫助研究人員更好地理解和探索零樣本、任意圖像分類。同時，也希望它能用於跨學科研究，探討此類模型的潛在影響。

OpenAI CLIP論文中討論了潛在的下游影響，為這類分析提供了示例。此外，LAION-5B博客（https://laion.ai/blog/laion-5b/）和即將發表的論文也會針對訓練數據集進行額外討論。

直接用途

零樣本圖像分類、圖像和文本檢索等。

下游用途

圖像分類和其他圖像任務的微調、線性探針圖像分類、圖像生成的引導和條件設置等。

不適用用途

與OpenAI模型一樣，

目前，該模型的任何部署用例（無論是否商業用途）都不在適用範圍內。非部署用例，如在受限環境中的圖像搜索，也不建議使用，除非對模型進行了針對特定、固定類別分類法的全面領域內測試。這是因為我們的安全評估表明，特別是考慮到CLIP在不同類別分類法下的性能差異，非常需要進行特定任務測試。這使得在任何用例中未經測試和無約束地部署該模型目前都可能有害。

某些屬於監控和人臉識別領域的用例，無論模型性能如何，始終不在適用範圍內。這是因為目前在缺乏確保公平使用的測試規範和檢查的情況下，將人工智能用於此類任務可能還為時過早。

由於該模型未針對英語以外的語言進行專門訓練或評估，因此其使用應限於英語用例。

此外，用於訓練這些模型的LAION-5B數據集還有其他需要考慮的因素，詳見下文。

訓練詳情

訓練數據

該模型使用以下數據集之一進行訓練（見引言中的表格）：

LAION-2B - LAION-5B的一個20億樣本英語子集（https://laion.ai/blog/laion-5b/）。
LAION美學數據集 - LAION-2B的一個9億樣本子集，經過pHash去重和美學分數過濾。

⚠️ 重要提示

創建該數據集的目的是推動大規模多模態模型訓練以及處理從公開互聯網爬取的未整理大規模數據集的研究和實驗。因此，我們建議將該數據集用於研究目的。請注意，這個大規模數據集是未整理的。要知道，未整理的數據集意味著收集的鏈接可能會為人類觀察者帶來強烈不適和令人不安的內容。因此，請謹慎使用演示鏈接，並自行承擔風險。可以通過基於安全標籤過濾樣本（使用我們構建的自定義訓練的NSFW分類器）來提取一個“安全”子集。雖然這會大大降低查看時遇到潛在有害內容的可能性，但我們不能完全排除在安全模式下仍存在有害內容的可能性，因此警告仍然適用。我們認為，向廣泛的研究和其他感興趣的社區公開提供該數據集，將有助於透明地研究訓練大規模模型帶來的好處，以及使用封閉的、僅限於小社區的大規模數據集時可能未被報告或注意到的陷阱和危險。然而，我們不建議使用該數據集來創建現成的工業產品，因為關於此類大規模模型的一般屬性和安全性的基礎研究仍在進行中，我們希望通過此次發佈來鼓勵這方面的研究。

訓練過程

所有模型均使用81920的全局批量大小進行訓練，在64個檢查點間隔內，每個間隔有2.037億個樣本，訓練過程中總共處理了約130億個樣本。

對於256x256分辨率的模型，在20個8-GPU（A100 40GB）節點（Stability）上使用以下帶有srun的slurm腳本，在JUWELS上使用40個4-GPU節點。

/opt/slurm/sbin/srun --cpu_bind=v --accel-bind=gn python -m training.main \
    --save-frequency 1 \
    --name "convnext_256" \
    --resume 'latest' \
    --train-data="pipe:aws s3 cp s3://mybucket/path/{laion{00000..xxxxx}.tar -" \
    --train-num-samples 203666042 \
    --dataset-type webdataset \
    --precision amp_bfloat16 \
    --warmup 10000 \
    --batch-size=512 \
    --epochs=64 \
    --dataset-resampled \
    --clip-grad-norm 5.0 \
    --lr 1e-3 \
    --workers=6 \
    --model "convnext_base_w" \
    --seed 0 \
    --ddp-static-graph \
    --local-loss \
    --gather-with-grad \
    --grad-checkpointing

對於320x320分辨率的模型，除了使用32個8-GPU節點，本地批量大小為320，或在JUWELs上使用64個4-GPU節點外，其他設置相同。

評估

使用LAION CLIP基準套件中的代碼進行評估。

測試數據、因素和指標

測試數據

測試使用VTAB+（VTAB（https://arxiv.org/abs/1910.04867）與其他魯棒性數據集的組合）進行分類，使用COCO和Flickr進行檢索。

結果

這些模型在ImageNet-1k上的零樣本top-1準確率達到了70.8%至71.7%。

模型評估結果

已經在更廣泛的數據集上進行了初步基準測試，可在https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。

作為探索增加增強和正則化的一部分，早期評估表明，經過augreg訓練的模型在更廣泛的分辨率範圍內表現良好。對於320x320的LAION-A模型尤其如此，在320x320的訓練分辨率下，augreg運行的準確率低於非augreg運行（71.3%對71.7%），但在384x384分辨率下評估時提高到72.2%（非augreg運行在384x384分辨率下降至71.0%）。

致謝

感謝stability.ai和高斯超級計算中心（http://gauss-centre.eu）通過於利希研究中心（JSC）的約翰·馮·諾伊曼計算研究所（NIC）在GCS超級計算機JUWELS Booster上提供計算時間，資助了這項工作。

引用

LAION-5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenCLIP軟件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

@Article{liu2022convnet,
  author  = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
  title   = {A ConvNet for the 2020s},
  journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year    = {2022},
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
}