CLIP-ViT-g-14-laion2B-s34B-b88K开源模型 - 免费用于零样本图像分类与图文检索

首页

CLIP ViT G 14 Laion2b S34b B88k

由 laion 开发

基于LAION-2B数据集训练的CLIP ViT-g/14模型，支持零样本图像分类和图文检索任务

文本生成图像

Safetensors

开源协议:MIT #零样本图像分类 #大规模图文预训练 #多模态对比学习

下载量 76.65k

发布时间 : 3/6/2023

模型简介

这是一个基于LAION-5B英语子集LAION-2B训练的CLIP ViT-g/14模型，使用OpenCLIP框架实现，主要用于零样本图像分类和图文检索等任务。

模型特点

大规模训练

使用LAION-2B数据集(20亿样本)进行训练，具有强大的泛化能力

零样本学习

无需特定任务微调即可执行图像分类和检索任务

高性能

在ImageNet-1k上达到78.4%的零样本top-1准确率

模型能力

零样本图像分类

图文检索

图像特征提取

文本特征提取

使用案例

计算机视觉

图像分类

无需训练即可对图像进行分类

在ImageNet-1k上达到78.4%准确率

图像搜索

基于文本描述搜索相关图像

研究

多模态学习研究

用于研究视觉-语言联合表示学习

🚀 CLIP-ViT-g-14-laion2B-s34B-b88K模型卡片

CLIP-ViT-g-14-laion2B-s34B-b88K是一个用于零样本图像分类的模型，它基于OpenCLIP框架，在大规模数据集上进行训练，为图像分类和检索等任务提供了强大的支持。

🚀 快速开始

使用以下代码开始使用该模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

多用途：可用于零样本图像分类、图像和文本检索等直接任务，也可用于图像分类微调、线性探针图像分类、图像生成引导和条件设置等下游任务。
研究导向：作为研究输出，旨在帮助研究人员更好地理解和探索零样本、任意图像分类，以及进行跨学科研究。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

🔍 模型详情

模型描述

这是一个CLIP ViT-g/14模型，使用OpenCLIP（https://github.com/mlfoundations/open_clip）在LAION-5B的LAION-2B英文子集（https://laion.ai/blog/laion-5b/, https://openreview.net/forum?id=M3Y74vmsMcY）上进行训练。模型训练由Jenia Jitsev在JUWELS Booster（位于Juelich Supercomputing Center）和stability.ai的AWS HPC集群上完成。训练是在可重现的缩放定律研究框架内进行的，相关研究成果已作为研究论文发表于CVPR 2023。另见研究仓库。

🛠️ 用途

预期用途

根据原始的OpenAI CLIP模型卡片，该模型是为研究社区提供的研究成果。希望该模型能帮助研究人员更好地理解和探索零样本、任意图像分类，也可用于跨学科研究此类模型的潜在影响。 OpenAI CLIP论文讨论了潜在的下游影响，为这种分析提供了示例。此外，LAION-5B博客（https://laion.ai/blog/laion-5b/）和LAION-5B NeurIPS论文也针对训练数据集进行了额外讨论。

直接用途

零样本图像分类、图像和文本检索等。

下游用途

图像分类和其他图像任务的微调、线性探针图像分类、图像生成引导和条件设置等。

超出适用范围的用途

与OpenAI模型一样，目前该模型的任何部署用例（无论是否商业用途）都超出了适用范围。非部署用例，如在受限环境中的图像搜索，除非对模型进行了特定、固定类别分类法的全面领域内测试，否则也不建议使用。这是因为安全评估表明，特别是考虑到CLIP在不同类别分类法下的性能差异，该模型非常需要进行特定任务的测试。这使得在任何用例中未经测试和不受约束地部署该模型目前都可能有害。某些属于监控和人脸识别领域的用例，无论模型性能如何，始终不在适用范围内。这是因为目前缺乏确保公平使用的测试规范和检查，使用人工智能进行此类任务可能还为时过早。由于该模型仅在英语上进行了训练和评估，其使用应限于英语用例。此外，用于训练这些模型的LAION-5B数据集还有其他需要考虑的因素，详见下文。

📈 训练详情

训练数据

该模型使用LAION-5B的20亿样本英文子集（https://laion.ai/blog/laion-5b/）进行训练。

⚠️ 重要提示

数据集创建的动机是推动大规模多模态模型训练和处理从公共互联网爬取的未整理大规模数据集的研究和实验。因此，建议将该数据集用于研究目的。请注意，这个大规模数据集是未整理的。要知道，数据集的未整理性质意味着收集的链接可能会指向让人类观看者极度不适和不安的内容。因此，请谨慎使用演示链接，并自行承担风险。可以通过根据安全标签过滤样本（使用我们构建的自定义训练的NSFW分类器）来提取一个“安全”子集。虽然这大大降低了在查看时遇到潜在有害内容的可能性，但我们不能完全排除安全模式下仍存在有害内容的可能性，因此该警告同样适用。我们认为，向广泛的研究和其他感兴趣的社区公开提供该数据集，将有助于透明地研究训练大规模模型带来的好处，以及在使用仅限于小社区的封闭大型数据集时可能未被报告或注意到的陷阱和危险。然而，我们不建议使用该数据集来创建现成的工业产品，因为关于此类大规模模型的一般特性和安全性的基础研究仍在进行中，我们希望通过此次发布来推动这方面的研究。

训练过程

OpenCLIP ViT-g/14模型在laion2b-en（LAION-5B的一部分）数据集的345亿样本（1.35亿 * 256个检查点）上进行训练。预热步数 = 13500，学习率 = 1e-3，采用余弦退火调度，权重衰减 = 0.2。全局批量大小 = 88800，GPU数量 = 1480，本地批量大小 = 60。

🧪 评估

使用LAION CLIP Benchmark套件中的代码进行评估。

测试数据、因素和指标

测试数据

分类任务使用VTAB+（VTAB（https://arxiv.org/abs/1910.04867）与额外鲁棒性数据集的组合）进行测试，检索任务使用COCO和Flickr进行测试。 TODO - 更多细节

结果

该模型在ImageNet-1k上实现了78.4的零样本top-1准确率。已在更广泛的数据集上进行了初步基准测试，目前可在https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。 TODO - 为该模型的指标创建表格。

🙏 致谢

感谢Gauss Centre for Supercomputing e.V.（www.gauss-centre.eu）通过John von Neumann Institute for Computing（NIC）在Jülich Supercomputing Centre（JSC）的GCS超级计算机JUWELS Booster上提供计算时间来资助这项工作。也感谢JSC授予和运营的JUST存储资源，以及Helmholtz Data Federation（HDF）提供的计算资源。此外，感谢stability.ai提供额外的计算资源用于训练该模型。

📑 引用

请按以下方式引用：

LAION-5B论文

@inproceedings{Schuhmann2022,
title={{LAION}-5{B}: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and Romain Beaumont and Richard Vencu and Cade W Gordon and Ross Wightman and Mehdi Cherti and Theo Coombes and Aarush Katta and Clayton Mullis and Mitchell Wortsman and Patrick Schramowski and Srivatsa R Kundurthy and Katherine Crowson and Ludwig Schmidt and Robert Kaczmarczyk and Jenia Jitsev},
booktitle={Thirty-sixth Conference on Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2022},
volume={35},
pages={25278--25294},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenCLIP可重现缩放定律论文

@inproceedings{Cherti2023,
  title={Reproducible scaling laws for contrastive language-image learning},
  author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={2818--2829},
  year={2023}
}

OpenAI CLIP论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}