CLIP-ViT-B-32-256x256-DataComp-s34B-b86K開源模型 - 免費用於零樣本圖像分類及圖文檢索

首頁

CLIP ViT B 32 256x256 DataComp S34b B86k

由laion開發

這是一個基於DataComp-1B數據集訓練的CLIP ViT-B/32模型，使用OpenCLIP框架在256x256分辨率下完成訓練，主要用於零樣本圖像分類和圖文檢索任務。

文本生成圖像

Safetensors

開源協議:MIT #零樣本圖像分類 #多模態檢索 #14億數據訓練

下載量 4,332

發布時間 : 9/12/2023

模型概述

該模型是基於DataComp-1B數據集訓練的視覺語言模型，能夠執行零樣本圖像分類和圖文檢索等任務。

模型特點

大規模數據訓練

使用DataComp-1B數據集的14億樣本進行訓練，具有強大的泛化能力。

零樣本學習能力

無需特定任務微調即可執行多種圖像分類任務。

高分辨率支持

支持256x256分辨率的圖像輸入，能捕捉更豐富的視覺細節。

模型能力

零樣本圖像分類

圖像文本檢索

跨模態理解

使用案例

圖像理解

零樣本圖像分類

無需訓練即可對圖像進行分類

在ImageNet-1k上達到72.7%的零樣本top-1準確率

圖文檢索

根據文本查詢檢索相關圖像或根據圖像檢索相關文本

在COCO數據集上實現64.4%的圖像檢索recall@5和80.7%的文本檢索recall@5

研究

跨模態學習研究

研究視覺和語言模態之間的關聯

🚀 CLIP ViT - B - 32 256x256基於DataComp - 1B訓練的模型卡片

本模型是一個基於CLIP ViT - B/32架構的模型，使用OpenCLIP在256x256分辨率下基於DataComp - 1B數據集進行訓練。它可用於零樣本圖像分類、圖像和文本檢索等任務，為研究人員探索零樣本圖像分類提供了有力工具。

🚀 快速開始

若要開始使用此模型，請參考：https://github.com/mlfoundations/open_clip

✨ 主要特性

研究導向：旨在作為研究成果供研究社區使用，助力研究人員更好地理解和探索零樣本、任意圖像分類。
多用途：可用於零樣本圖像分類、圖像和文本檢索等直接任務，也能用於圖像分類和其他圖像任務的微調、線性探針圖像分類、圖像生成引導和條件設定等下游任務。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

💻 使用示例

文檔未提供代碼示例，暫不展示。

📚 詳細文檔

🔍 模型詳情

模型描述

這是一個CLIP ViT - B/32模型，在256x256分辨率下，使用OpenCLIP（https://github.com/mlfoundations/open_clip）基於DataComp - 1B（https://github.com/mlfoundations/datacomp）數據集進行訓練。模型訓練在[JURECA](https://www.fz - juelich.de/en/ias/jsc/systems/supercomputers/jureca)集群上完成。

📋 使用場景

預期用途

正如原始的[OpenAI CLIP模型卡片](https://github.com/openai/CLIP/blob/d50d76daa670286dd6cacf3bcd80b5e4823fc8e1/model - card.md)所述，該模型是為研究社區提供的研究成果。期望它能幫助研究人員更好地理解和探索零樣本、任意圖像分類，也可用於跨學科研究此類模型的潛在影響。OpenAI CLIP論文對潛在的下游影響進行了討論，為這類分析提供了示例。此外，DataComp論文（https://arxiv.org/abs/2304.14108）也針對訓練數據集進行了額外討論。

直接用途

可用於零樣本圖像分類、圖像和文本檢索等。

下游用途

可用於圖像分類和其他圖像任務的微調、線性探針圖像分類、圖像生成引導和條件設定等。

非預期用途

與OpenAI模型類似，目前任何模型的部署用例（無論是否商業用途）都不在預期範圍內。非部署用例（如在受限環境中的圖像搜索）也不建議使用，除非對模型進行了特定、固定類別分類法的全面領域內測試。因為安全評估表明，鑑於CLIP在不同類別分類法下性能的可變性，需要進行特定任務測試。未經測試和無約束地部署模型在任何用例中目前都可能有害。
某些屬於監控和人臉識別領域的用例，無論模型性能如何，始終不在預期範圍內。因為目前缺乏確保公平使用的測試規範和檢查，使用人工智能進行此類任務還為時過早。

🛠️ 訓練詳情

訓練數據

該模型使用DataComp - 1B數據集（https://arxiv.org/abs/2304.14108）的14億個樣本進行訓練。

⚠️ 重要提示

該數據集創建的動機是推動大規模多模態模型訓練和處理從公開互聯網爬取的未整理大規模數據集的研究和實驗。因此，建議僅將該數據集用於研究目的。需注意，這個大規模數據集是未整理的，收集的鏈接可能會指向令人極度不適和不安的內容。請謹慎使用演示鏈接並自行承擔風險。可以通過基於安全標籤過濾樣本（使用我們構建的自定義訓練的NSFW分類器）提取“安全”子集。雖然這能大大降低查看時遇到潛在有害內容的可能性，但不能完全排除安全模式下仍存在有害內容的可能性，因此警告仍然適用。我們認為向廣大研究和其他感興趣的社區公開提供該數據集，將有助於透明地研究訓練大規模模型帶來的好處，以及在使用僅限於小社區的封閉大型數據集時可能未報告或未注意到的陷阱和危險。不過，我們不建議使用該數據集創建現成的工業產品，因為關於此類大規模模型的一般屬性和安全性的基礎研究仍在進行中。

SLURM腳本

#!/bin/bash -x
#SBATCH --nodes=24
#SBATCH --gres=gpu:4
#SBATCH --ntasks-per-node=4
#SBATCH --cpus-per-task=12
#SBATCH --time=24:00:00
source /path/miniconda/bin/activate
export CUDA_VISIBLE_DEVICES=0,1,2,3
export MASTER_PORT=12802
master_addr=$(scontrol show hostnames "$SLURM_JOB_NODELIST" | head -n 1)
export MASTER_ADDR=$master_addr"i"
echo "MASTER_ADDR="$MASTER_ADDR
srun --cpu-bind=v --cpus-per-task=12 python -u -m training.main --aug-cfg scale='(0.4, 1.0)' color_jitter='(0.32, 0.32, 0.32, 0.08)' color_jitter_prob=0.8 gray_scale_prob=0.2 use_timm=True \
--save-frequency 1 \
--zeroshot-frequency 1 \
--dataset-type webdataset \
--train-data '/path/to/data' \
--report-to tensorboard \
--train-num-samples 1398270000 \
--warmup 2000 \
--batch-size 896 \
--epochs 24 \
--workers 8 \
--model ViT-B-32-256 \
--logs logs \
--seed 0 \
--ddp-static-graph \
--local-loss \
--gather-with-grad \
--lr 0.001 \
--log-every-n-steps 20 \
--save-most-recent \
--resume latest \
--grad-checkpointing \
--precision amp_bfloat16 \
--beta1 0.9 \
--beta2 0.95 \
--wd 0.2

📊 評估

使用[LAION CLIP Benchmark](https://github.com/LAION - AI/CLIP_benchmark)在38個數據集上進行評估。

測試數據、因素和指標

測試數據

測試在一組38個數據集上進行。更多詳細信息請參考我們的論文（https://arxiv.org/abs/2304.14108）。

評估結果

該模型在ImageNet - 1k上實現了72.7%的零樣本top - 1準確率，在COCO字幕上實現了64.4%的圖像檢索召回率@5和80.7%的文本檢索召回率@5。

🙏 致謝

文檔未提及具體致謝內容，暫不展示。

📑 引用

DataComp

@article{datacomp,
  title={DataComp: In search of the next generation of multimodal datasets},
  author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
  journal={arXiv preprint arXiv:2304.14108},
  year={2023}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP軟件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}