CLIP-convnext_base_w-laion2B-s13B-b82K開源模型 - 支持零樣本圖像分類與圖文檢索

首頁

CLIP Convnext Base W Laion2b S13b B82k

由laion開發

基於ConvNeXt-Base架構的CLIP模型，在LAION-5B子集上訓練，支持零樣本圖像分類和圖文檢索任務

文本生成圖像

Safetensors

開源協議:MIT #零樣本圖像分類 #ConvNeXt架構 #多模態檢索

下載量 4,522

發布時間 : 1/3/2023

模型概述

該模型是使用OpenCLIP框架訓練的CLIP模型變體，採用ConvNeXt-Base作為圖像編碼器，在LAION-5B數據集子集上訓練，具有優秀的零樣本圖像分類能力

模型特點

ConvNeXt架構

採用ConvNeXt-Base作為圖像編碼器，探索替代ViT和ResNet的CLIP模型架構

增強正則化

使用隨機調整裁剪、隨機擦除和隨機深度等增強技術提高模型性能

高分辨率訓練

在320x320高分辨率下訓練，提升圖像識別能力

大規模訓練

在LAION-5B數據集子集上訓練13B樣本，具有優秀的樣本效率

模型能力

零樣本圖像分類

圖像文本檢索

跨模態表示學習

使用案例

計算機視覺

圖像分類

無需微調即可對圖像進行分類

ImageNet零樣本準確率71.7%

圖文檢索

實現圖像到文本或文本到圖像的檢索

研究

多模態研究

用於研究視覺語言聯合表示學習

🚀 CLIP - convnext_base_w - 320.laion2B - s13B - b82K模型卡片

本模型是一系列基於ConvNeXt - Base架構的CLIP模型，在特定數據集上訓練，旨在助力零樣本圖像分類研究，為科研人員探索圖像分類提供新工具。

🚀 快速開始

此模型主要作為研究輸出供科研社區使用。若你希望深入瞭解和探索零樣本、任意圖像分類，或開展相關跨學科研究，可參考以下內容進一步使用該模型。

✨ 主要特性

採用ConvNeXt - Base架構，是已知在CLIP ViT - B/16和RN50x4模型規模範圍內首次大規模訓練的ConvNeXt CLIP模型。
探索了通過增加增強和正則化（如更大範圍的隨機裁剪、隨機擦除、隨機深度）來優化圖像塔。
所有模型在13B樣本上訓練，ImageNet零樣本top - 1準確率達到 >= 70.8%，表明ConvNeXt架構在該模型規模範圍內可能更具樣本效率。

📦 安裝指南

文檔未提及具體安裝步驟，暫無法提供。

💻 使用示例

基礎用法

文檔未提供基礎用法的代碼示例，暫無法展示。

高級用法

文檔未提供高級用法的代碼示例，暫無法展示。

📚 詳細文檔

模型詳情

模型描述

一系列基於CLIP的ConvNeXt - Base（寬嵌入維度）模型，使用OpenCLIP（https://github.com/mlfoundations/open_clip）在LAION - 5B（https://laion.ai/blog/laion - 5b/）的子集上訓練。

目標：

探索ViT和ResNet（帶注意力池化）CLIP模型的替代方案，使其能隨模型大小和圖像分辨率良好擴展。

首創：

首次在CLIP ViT - B/16和RN50x4模型規模範圍內大規模訓練的ConvNeXt CLIP模型。
首次發佈通過增加增強和正則化（更大範圍的隨機裁剪、隨機擦除、隨機深度）來探索圖像塔優化的模型權重。

這些模型使用[timm](https://github.com/rwightman/pytorch - image - models)的ConvNeXt - Base模型（convnext_base）作為圖像塔，文本塔與OpenAI CLIP的RN50x4（深度12，嵌入維度640）模型相同。基礎模型在256x256圖像分辨率下訓練，在FLOPs和激活計數上大致與RN50x4模型匹配。名稱中包含320的模型在320x320分辨率下訓練。

該系列所有模型在13B樣本上訓練，ImageNet零樣本top - 1準確率達到 >= 70.8%。與34B樣本下零樣本準確率為70.2%（13B樣本下為68.1%）的ViT - B/16相比，表明ConvNeXt架構在該模型規模範圍內可能更具樣本效率，不過還需更多實驗驗證。

模型	數據集	分辨率	增強正則化	ImageNet零樣本top - 1準確率(%)
[convnext_base_w.laion2b_s13b_b82k](https://huggingface.co/laion/CLIP - convnext_base_w - laion2B - s13B - b82K)	LAION - 2B	256x256	隨機裁剪(0.9, 1.0)	70.8
[convnext_base_w.laion2b_s13b_b82k_augreg](https://huggingface.co/laion/CLIP - convnext_base_w - laion2B - s13B - b82K - augreg)	LAION - 2B	256x256	隨機裁剪(0.33, 1.0)，隨機擦除(0.35)，隨機深度(0.1)	71.5
[convnext_base_w.laion_aesthetic_s13b_b82k](https://huggingface.co/laion/CLIP - convnext_base_w - laion_aesthetic - s13B - b82K)	LAION - A	256x256	隨機裁剪(0.9, 1.0)	71.0
[convnext_base_w_320.laion_aesthetic_s13b_b82k](https://huggingface.co/laion/CLIP - convnext_base_w_320 - laion_aesthetic - s13B - b82K)	LAION - A	320x320	隨機裁剪(0.9, 1.0)	71.7
[convnext_base_w_320.laion_aesthetic_s13b_b82k_augreg](https://huggingface.co/laion/CLIP - convnext_base_w_320 - laion_aesthetic - s13B - b82K - augreg)	LAION - A	320x320	隨機裁剪(0.33, 1.0)，隨機擦除(0.35)，隨機深度(0.1)	71.3

隨機裁剪 = 隨機調整裁剪（裁剪比例），隨機擦除 = 隨機擦除（概率），隨機深度 = 隨機深度（概率） - 僅針對圖像塔。

LAION - A = LAION Aesthetic，是LAION - 2B的約9億樣本子集，經過pHash去重和美學分數過濾。

模型訓練由Ross Wightman在stability.ai集群和[JUWELS Booster](https://apps.fz - juelich.de/jsc/hps/juwels/booster - overview.html)超級計算機上完成。

用途

直接用途

零樣本圖像分類、圖像和文本檢索等。

下游用途

圖像分類和其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件控制等。

非適用用途

與OpenAI模型一樣，目前模型的任何部署用例（無論是否商業用途）均不在適用範圍內。非部署用例（如在受限環境中的圖像搜索）也不建議使用，除非對模型進行了特定、固定類別分類法的全面領域內測試。因為安全評估表明，鑑於CLIP在不同類別分類法下性能的可變性，非常需要進行特定任務測試。這使得在未經測試和不受約束的情況下部署模型在任何用例中目前都可能有害。

某些屬於監控和人臉識別領域的用例，無論模型性能如何，始終不在適用範圍內。因為目前缺乏確保公平使用的測試規範和檢查，使用人工智能進行此類任務可能還不成熟。

由於該模型未在英語以外的語言上進行專門訓練和評估，其使用應限於英語用例。

訓練詳情

訓練數據

該模型在以下數據子集上訓練：

LAION - 2B - LAION - 5B的20億樣本英語子集（https://laion.ai/blog/laion - 5b/）。
LAION - Aesthetic - LAION - 2B的9億樣本子集，經過pHash去重和美學分數過濾。

⚠️ 重要提示

數據集創建的目的是推動大規模多模態模型訓練和處理未整理的大規模互聯網爬取數據集的研究和實驗。建議將數據集用於研究目的。需注意，該大規模數據集未經過整理，收集的鏈接可能包含令人不適和不安的內容。因此，請謹慎使用演示鏈接，並自行承擔風險。可以通過基於安全標籤過濾樣本（使用我們構建的自定義訓練的NSFW分類器）提取“安全”子集。雖然這大大降低了查看時遇到潛在有害內容的可能性，但我們不能完全排除安全模式下仍存在有害內容的可能性，因此警告仍然適用。我們認為向廣泛的研究和其他感興趣的社區公開提供數據集，將有助於透明地研究訓練大規模模型帶來的好處，以及在使用封閉的、僅限於小社區的大型數據集時可能未被報告或注意到的陷阱和危險。然而，我們不建議使用該數據集創建現成的工業產品，因為關於此類大規模模型的一般屬性和安全性的基礎研究仍在進行中。

訓練過程

所有模型使用全局批量大小81920，在64個檢查點間隔（每個間隔2.037億樣本）上訓練，總共約13B樣本。

對於256x256模型，在20個8 - GPU（A100 40GB）節點（Stability）上使用以下slurm腳本和srun命令，在JUWELS上切換到40個4 - GPU節點：

/opt/slurm/sbin/srun --cpu_bind=v --accel-bind=gn python -m training.main \
    --save-frequency 1 \
    --name "convnext_256" \
    --resume 'latest' \
    --train-data="pipe:aws s3 cp s3://mybucket/path/{laion{00000..xxxxx}.tar -" \
    --train-num-samples 203666042 \
    --dataset-type webdataset \
    --precision amp_bfloat16 \
    --warmup 10000 \
    --batch-size=512 \
    --epochs=64 \
    --dataset-resampled \
    --clip-grad-norm 5.0 \
    --lr 1e-3 \
    --workers=6 \
    --model "convnext_base_w" \
    --seed 0 \
    --ddp-static-graph \
    --local-loss \
    --gather-with-grad \
    --grad-checkpointing

對於320x320模型，與上述相同，但使用32個8 - GPU節點，本地批量大小320，或在JUWELs上使用64個4 - GPU節點。

評估

評估使用[LAION CLIP Benchmark suite](https://github.com/LAION - AI/CLIP_benchmark)中的代碼進行。

測試數據、因素和指標

測試數據

測試使用VTAB +（VTAB（https://arxiv.org/abs/1910.04867）與額外魯棒性數據集的組合）進行分類，使用COCO和Flickr進行檢索。

結果

模型在ImageNet - 1k上的零樣本top - 1準確率在70.8%到71.7%之間。

模型評估結果

已在更廣泛的數據集上進行了初步基準測試，可在https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。

作為探索增加增強和正則化的一部分，早期評估表明，augreg訓練的模型在更廣泛的分辨率範圍內表現良好。特別是對於320x320的LAION - A模型，在320x320訓練分辨率下評估時，augreg運行的準確率低於非augreg（71.3 vs 71.7），但在384x384分辨率下評估時提高到72.2%（非augreg在384x384時降至71.0%）。

🔧 技術細節

文檔未提供足夠詳細的技術實現細節，暫無法展示。

📄 許可證

本項目採用MIT許可證。

致謝

感謝stability.ai和高斯超級計算中心（http://gauss - centre.eu）通過於利希超級計算中心（JSC）的GCS超級計算機JUWELS Booster上的約翰·馮·諾伊曼計算研究所（NIC）提供計算時間，資助了這部分工作。

引用

BibTeX:

LAION - 5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenCLIP軟件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

@Article{liu2022convnet,
  author  = {Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
  title   = {A ConvNet for the 2020s},
  journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year    = {2022},
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
}