模型简介
模型特点
模型能力
使用案例
🚀 CLIP ViT - B - 32 256x256基于DataComp - 1B训练的模型卡片
本模型是一个基于CLIP ViT - B/32架构的模型,使用OpenCLIP在256x256分辨率下基于DataComp - 1B数据集进行训练。它可用于零样本图像分类、图像和文本检索等任务,为研究人员探索零样本图像分类提供了有力工具。
🚀 快速开始
若要开始使用此模型,请参考:https://github.com/mlfoundations/open_clip
✨ 主要特性
- 研究导向:旨在作为研究成果供研究社区使用,助力研究人员更好地理解和探索零样本、任意图像分类。
- 多用途:可用于零样本图像分类、图像和文本检索等直接任务,也能用于图像分类和其他图像任务的微调、线性探针图像分类、图像生成引导和条件设定等下游任务。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
文档未提供代码示例,暂不展示。
📚 详细文档
🔍 模型详情
模型描述
这是一个CLIP ViT - B/32模型,在256x256分辨率下,使用OpenCLIP(https://github.com/mlfoundations/open_clip)基于DataComp - 1B(https://github.com/mlfoundations/datacomp)数据集进行训练。模型训练在[JURECA](https://www.fz - juelich.de/en/ias/jsc/systems/supercomputers/jureca)集群上完成。
📋 使用场景
预期用途
正如原始的[OpenAI CLIP模型卡片](https://github.com/openai/CLIP/blob/d50d76daa670286dd6cacf3bcd80b5e4823fc8e1/model - card.md)所述,该模型是为研究社区提供的研究成果。期望它能帮助研究人员更好地理解和探索零样本、任意图像分类,也可用于跨学科研究此类模型的潜在影响。OpenAI CLIP论文对潜在的下游影响进行了讨论,为这类分析提供了示例。此外,DataComp论文(https://arxiv.org/abs/2304.14108)也针对训练数据集进行了额外讨论。
直接用途
可用于零样本图像分类、图像和文本检索等。
下游用途
可用于图像分类和其他图像任务的微调、线性探针图像分类、图像生成引导和条件设定等。
非预期用途
- 与OpenAI模型类似,目前任何模型的部署用例(无论是否商业用途)都不在预期范围内。非部署用例(如在受限环境中的图像搜索)也不建议使用,除非对模型进行了特定、固定类别分类法的全面领域内测试。因为安全评估表明,鉴于CLIP在不同类别分类法下性能的可变性,需要进行特定任务测试。未经测试和无约束地部署模型在任何用例中目前都可能有害。
- 某些属于监控和人脸识别领域的用例,无论模型性能如何,始终不在预期范围内。因为目前缺乏确保公平使用的测试规范和检查,使用人工智能进行此类任务还为时过早。
🛠️ 训练详情
训练数据
该模型使用DataComp - 1B数据集(https://arxiv.org/abs/2304.14108)的14亿个样本进行训练。
⚠️ 重要提示
该数据集创建的动机是推动大规模多模态模型训练和处理从公开互联网爬取的未整理大规模数据集的研究和实验。因此,建议仅将该数据集用于研究目的。需注意,这个大规模数据集是未整理的,收集的链接可能会指向令人极度不适和不安的内容。请谨慎使用演示链接并自行承担风险。可以通过基于安全标签过滤样本(使用我们构建的自定义训练的NSFW分类器)提取“安全”子集。虽然这能大大降低查看时遇到潜在有害内容的可能性,但不能完全排除安全模式下仍存在有害内容的可能性,因此警告仍然适用。我们认为向广大研究和其他感兴趣的社区公开提供该数据集,将有助于透明地研究训练大规模模型带来的好处,以及在使用仅限于小社区的封闭大型数据集时可能未报告或未注意到的陷阱和危险。不过,我们不建议使用该数据集创建现成的工业产品,因为关于此类大规模模型的一般属性和安全性的基础研究仍在进行中。
SLURM脚本
#!/bin/bash -x
#SBATCH --nodes=24
#SBATCH --gres=gpu:4
#SBATCH --ntasks-per-node=4
#SBATCH --cpus-per-task=12
#SBATCH --time=24:00:00
source /path/miniconda/bin/activate
export CUDA_VISIBLE_DEVICES=0,1,2,3
export MASTER_PORT=12802
master_addr=$(scontrol show hostnames "$SLURM_JOB_NODELIST" | head -n 1)
export MASTER_ADDR=$master_addr"i"
echo "MASTER_ADDR="$MASTER_ADDR
srun --cpu-bind=v --cpus-per-task=12 python -u -m training.main --aug-cfg scale='(0.4, 1.0)' color_jitter='(0.32, 0.32, 0.32, 0.08)' color_jitter_prob=0.8 gray_scale_prob=0.2 use_timm=True \
--save-frequency 1 \
--zeroshot-frequency 1 \
--dataset-type webdataset \
--train-data '/path/to/data' \
--report-to tensorboard \
--train-num-samples 1398270000 \
--warmup 2000 \
--batch-size 896 \
--epochs 24 \
--workers 8 \
--model ViT-B-32-256 \
--logs logs \
--seed 0 \
--ddp-static-graph \
--local-loss \
--gather-with-grad \
--lr 0.001 \
--log-every-n-steps 20 \
--save-most-recent \
--resume latest \
--grad-checkpointing \
--precision amp_bfloat16 \
--beta1 0.9 \
--beta2 0.95 \
--wd 0.2
📊 评估
使用[LAION CLIP Benchmark](https://github.com/LAION - AI/CLIP_benchmark)在38个数据集上进行评估。
测试数据、因素和指标
测试数据
测试在一组38个数据集上进行。更多详细信息请参考我们的论文(https://arxiv.org/abs/2304.14108)。
评估结果
该模型在ImageNet - 1k上实现了72.7%的零样本top - 1准确率,在COCO字幕上实现了64.4%的图像检索召回率@5和80.7%的文本检索召回率@5。
🙏 致谢
文档未提及具体致谢内容,暂不展示。
📑 引用
DataComp
@article{datacomp,
title={DataComp: In search of the next generation of multimodal datasets},
author={Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt},
journal={arXiv preprint arXiv:2304.14108},
year={2023}
}
OpenAI CLIP论文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP软件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
🔧 技术细节
文档未提供具体技术实现细节,暂不展示。
📄 许可证
本模型采用MIT许可证。









