CLIP-convnext_base_w_320-laion_aesthetic開源模型

首頁

CLIP Convnext Base W 320 Laion Aesthetic S13b B82k Augreg

由laion開發

基於ConvNeXt-Base架構的CLIP模型，在LAION-5B美學子集上訓練，支持320x320分辨率圖像分類

文本生成圖像

TensorBoard

開源協議:MIT #零樣本圖像分類 #ConvNeXt架構 #高分辨率CLIP

下載量 4,430

發布時間 : 1/10/2023

模型概述

該模型是OpenCLIP項目的一部分，採用ConvNeXt-Base作為圖像編碼器，專門針對零樣本圖像分類任務優化。在LAION-5B的美學子集上訓練，具有增強的圖像數據增強策略。

模型特點

ConvNeXt架構創新

首個大規模採用ConvNeXt架構的CLIP模型，探索替代傳統ViT和ResNet的方案

增強數據增強策略

採用擴展RRC隨機裁剪範圍、隨機擦除和隨機深度等增強技術提升模型正則化效果

高分辨率支持

支持320x320分辨率輸入，在更高分辨率下保持良好性能

美學數據集訓練

使用經過美學評分篩選的LAION-5B子集訓練，提升對高質量圖像的識別能力

模型能力

零樣本圖像分類

圖文檢索

圖像特徵提取

使用案例

圖像理解

開放域圖像分類

無需特定訓練即可對任意圖像進行分類

ImageNet-1k零樣本準確率達71.3%

圖文匹配

實現圖像與文本描述的跨模態匹配

研究應用

多模態模型研究

作為基礎模型用於視覺-語言聯合表示學習研究

🚀 CLIP-convnext_base_w-320.laion_aesthetic-s13B-b82k-augreg模型卡片

本模型是一系列基於OpenCLIP在LAION-5B子集上訓練的CLIP ConvNeXt-Base（寬嵌入維度）模型，旨在探索可隨模型大小和圖像分辨率良好擴展的CLIP模型，助力零樣本圖像分類等研究。

🚀 快速開始

本模型可用於零樣本圖像分類、圖像和文本檢索等任務。若你想使用該模型，可參考以下文檔瞭解使用方法和注意事項。

✨ 主要特性

架構創新：採用ConvNeXt-Base作為圖像塔，探索了替代ViT和ResNet的CLIP模型架構。
樣本高效：在一定模型規模範圍內，ConvNeXt架構可能比ViT-B/16更具樣本效率。
多分辨率訓練：提供不同分辨率（256x256和320x320）的模型，以適應不同任務需求。

📦 安裝指南

文檔未提及具體安裝步驟，可參考OpenCLIP官方倉庫（https://github.com/mlfoundations/open_clip）獲取安裝指導。

💻 使用示例

文檔未提供代碼示例，你可以參考OpenCLIP的使用文檔進行模型調用和推理。

📚 詳細文檔

模型詳情

一系列基於OpenCLIP在LAION-5B子集上訓練的CLIP ConvNeXt-Base（寬嵌入維度）模型。

目標：

探索可隨模型大小和圖像分辨率良好擴展的ViT和ResNet（帶注意力池化）CLIP模型的替代方案。

首次嘗試：

首次在CLIP ViT-B/16和RN50x4模型規模範圍內訓練的ConvNeXt CLIP模型。
首次發佈通過增加增強和正則化（更大範圍的隨機裁剪、隨機擦除、隨機深度）探索圖像塔改進的模型權重。

模型使用timm的ConvNeXt-Base模型（convnext_base）作為圖像塔，文本塔與OpenAI CLIP的RN50x4模型（深度12，嵌入維度640）相同。基礎模型在256x256圖像分辨率下訓練，FLOPs和激活計數與RN50x4模型大致匹配。名稱中包含320的模型在320x320分辨率下訓練。

該系列所有模型均在13B樣本上訓練，ImageNet零樣本top-1準確率>=70.8%。與34B樣本下零樣本準確率為70.2%（13B樣本下為68.1%）的ViT-B/16相比，表明ConvNeXt架構在該模型規模範圍內可能更具樣本效率，但需更多實驗驗證。

模型	數據集	分辨率	增強正則化	ImageNet零樣本top-1準確率(%)
convnext_base_w.laion2b_s13b_b82k	LAION-2B	256x256	RRC (0.9, 1.0)	70.8
convnext_base_w.laion2b_s13b_b82k_augreg	LAION-2B	256x256	RRC (0.33, 1.0), RE (0.35), SD (0.1)	71.5
convnext_base_w.laion_aesthetic_s13b_b82k	LAION-A	256x256	RRC (0.9, 1.0)	71.0
convnext_base_w_320.laion_aesthetic_s13b_b82k	LAION-A	320x320	RRC (0.9, 1.0)	71.7
convnext_base_w_320.laion_aesthetic_s13b_b82k_augreg	LAION-A	320x320	RRC (0.33, 1.0), RE (0.35), SD (0.1)	71.3

RRC = 隨機裁剪（裁剪比例），RE = 隨機擦除（概率），SD = 隨機深度（概率） - 僅適用於圖像塔

LAION-A = LAION美學數據集，是LAION-2B的約9億樣本子集，經過pHash去重和美學分數過濾。

模型訓練由Ross Wightman在stability.ai集群和JUWELS Booster超級計算機上完成。

用途

直接用途

零樣本圖像分類、圖像和文本檢索等。

下游用途

圖像分類和其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件化等。

不適用場景

目前，模型的任何部署用例（無論是否商業用途）均超出範圍。除非對模型進行特定固定類別分類法的徹底領域內測試，否則不建議在受限環境中進行圖像搜索等非部署用例。因為安全評估表明，鑑於CLIP在不同類別分類法下性能的可變性，需要進行特定任務測試，未經測試和無約束的模型部署可能有害。
涉及監控和人臉識別領域的用例始終超出範圍，因為目前缺乏確保公平使用的測試規範和檢查，使用人工智能進行此類任務尚不成熟。
由於模型僅在英語環境下訓練和評估，其使用應限於英語用例。

訓練詳情

訓練數據

模型在以下數據集之一上訓練：

LAION-2B：LAION-5B的20億樣本英語子集（https://laion.ai/blog/laion-5b/）。
LAION-Aesthetic：LAION-2B的9億樣本子集，經過pHash去重和美學分數過濾。

重要提示：數據集創建的目的是推動大規模多模態模型訓練和處理未整理的大規模互聯網爬取數據集的研究。建議僅用於研究目的。該大規模數據集未經過整理，其中的鏈接可能包含令人不適和不安的內容。請謹慎使用演示鏈接並自行承擔風險。可以通過安全標籤過濾（使用自定義訓練的NSFW分類器）提取“安全”子集，但不能完全排除有害內容的存在。目前不建議使用該數據集創建工業產品，因為關於此類大規模模型的基本屬性和安全性的研究仍在進行中。

訓練過程

所有模型在全局批量大小為81920的情況下訓練，共64個檢查點間隔，每個間隔2.037億樣本，總計約13B樣本。

對於256x256模型，在20個8-GPU（A100 40GB）節點（Stability）上使用以下slurm腳本，在JUWELS上切換到40個4-GPU節點：

/opt/slurm/sbin/srun --cpu_bind=v --accel-bind=gn python -m training.main \
    --save-frequency 1 \
    --name "convnext_256" \
    --resume 'latest' \
    --train-data="pipe:aws s3 cp s3://mybucket/path/{laion{00000..xxxxx}.tar -" \
    --train-num-samples 203666042 \
    --dataset-type webdataset \
    --precision amp_bfloat16 \
    --warmup 10000 \
    --batch-size=512 \
    --epochs=64 \
    --dataset-resampled \
    --clip-grad-norm 5.0 \
    --lr 1e-3 \
    --workers=6 \
    --model "convnext_base_w" \
    --seed 0 \
    --ddp-static-graph \
    --local-loss \
    --gather-with-grad \
    --grad-checkpointing

對於320x320模型，使用32個8-GPU節點，本地批量大小320，或在JUWELs上使用64個4-GPU節點。

評估

評估使用LAION CLIP Benchmark suite中的代碼進行。

測試數據、因素和指標

測試數據：分類任務使用VTAB+（VTAB與額外魯棒性數據集的組合），檢索任務使用COCO和Flickr。

結果

模型在ImageNet-1k上的零樣本top-1準確率在70.8%至71.7%之間。

零樣本準確率

已在更廣泛的數據集上進行了初步基準測試，結果可在https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。

在探索增強和正則化的過程中，早期評估表明，augreg訓練的模型在更廣泛的分辨率範圍內表現良好。特別是320x320的LAION-A模型，在320x320訓練分辨率下，augreg運行的準確率低於非augreg（71.3% vs 71.7%），但在384x384評估時提高到72.2%（非augreg降至71.0%）。

致謝

感謝stability.ai和高斯超級計算中心（http://gauss-centre.eu）通過約翰·馮·諾伊曼計算研究所（NIC）在於利希超級計算中心（JSC）的GCS超級計算機JUWELS Booster上提供計算時間，資助了這項工作。

引用

BibTeX：

LAION-5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenCLIP軟件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

@Article{liu2022convnet,
  author  = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
  title   = {A ConvNet for the 2020s},
  journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year    = {2022},
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
}