CLIP-ViT-bigG-14开源视觉-语言模型 - 免费部署实现零样本图像分类与跨模态检索

首页

CLIP ViT Bigg 14 Laion2b 39B B160k

由 laion 开发

基于OpenCLIP框架在LAION-2B数据集上训练的视觉-语言模型，支持零样本图像分类和跨模态检索

文本生成图像

Safetensors

开源协议:MIT #零样本图像分类 #多模态检索 #大规模预训练

下载量 565.80k

发布时间 : 1/23/2023

模型简介

这是一个基于ViT-bigG/14架构的CLIP模型，使用OpenCLIP框架在LAION-5B的20亿英语子集上训练。模型能够理解图像和文本之间的语义关系，支持零样本图像分类和跨模态检索任务。

模型特点

零样本学习能力

无需特定任务微调即可执行新类别的图像分类任务

跨模态理解

能够同时理解图像和文本的语义关系

大规模训练

在20亿规模的LAION-2B英语数据集上训练

高性能

在ImageNet-1k上达到80.1%的零样本top-1准确率

模型能力

零样本图像分类

图像文本检索

跨模态语义理解

图像特征提取

使用案例

图像理解

零样本图像分类

无需训练即可对新类别图像进行分类

在ImageNet-1k上达到80.1%准确率

图像检索

根据文本描述检索相关图像

研究应用

多模态研究

用于视觉-语言联合表示学习的研究

模型微调基础

作为下游任务的预训练模型

🚀 CLIP ViT-bigG/14 - LAION-2B模型卡片

本模型是一个CLIP ViT - bigG/14模型，旨在助力研究人员更好地理解和探索零样本、任意图像分类，也可用于跨学科研究该类模型的潜在影响。

🚀 快速开始

使用以下代码开始使用该模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

研究导向：作为研究成果，供研究社区使用，助力零样本、任意图像分类研究。
多用途：可用于零样本图像分类、图像和文本检索等直接任务，也能用于图像分类微调、图像生成引导等下游任务。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

模型详情

模型描述

这是一个CLIP ViT - bigG/14模型，使用OpenCLIP（https://github.com/mlfoundations/open_clip）在LAION - 5B（https://laion.ai/blog/laion - 5b/）的LAION - 2B英文子集上进行训练。模型由Mitchell Wortsman在stability.ai集群上完成训练，许可证为MIT。

用途

直接使用：零样本图像分类、图像和文本检索等。
下游使用：图像分类和其他图像任务微调、线性探针图像分类、图像生成引导和条件设定等。
超出适用范围的使用：目前，模型的任何部署用例（无论是否商业用途）都超出适用范围。非部署用例（如在受限环境中的图像搜索）也不推荐，除非对模型进行特定、固定类别分类法的全面领域内测试。此外，涉及监控和人脸识别领域的用例始终超出适用范围。由于模型仅在英语上进行训练和评估，其使用应限于英语用例。

训练详情

训练数据

该模型使用LAION - 5B的20亿样本英文子集进行训练，也在LAION - A（LAION - 2B的9亿子集，经过美学V2 4.5+过滤和phash去重）上进行了部分微调。

⚠️ 重要提示

数据集创建的目的是推动大规模多模态模型训练和处理未整理的大规模公共互联网数据集的研究和实验。建议仅将数据集用于研究目的。该大规模数据集未经过整理，收集的链接可能包含令人不适和不安的内容。虽然可以通过安全标签过滤出“安全”子集，但仍不能完全排除有害内容的存在。不建议使用该数据集创建工业产品，因为关于此类大规模模型的基本属性和安全性的基础研究仍在进行中。

训练过程

训练过程将很快在laion.ai的博客文章中讨论。

评估

评估使用[LAION CLIP Benchmark套件](https://github.com/LAION - AI/CLIP_benchmark)中的代码进行。

测试数据、因素和指标

测试数据：分类任务使用VTAB +（VTAB（https://arxiv.org/abs/1910.04867）与其他鲁棒性数据集的组合），检索任务使用COCO和Flickr。

结果

该模型在ImageNet - 1k上实现了80.1的零样本top - 1准确率。

致谢

感谢stability.ai提供训练该模型的计算资源。

引用

BibTeX： LAION - 5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenAI CLIP论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

扩展OpenCLIP论文

@article{cherti2022reproducible,
  title={Reproducible scaling laws for contrastive language-image learning},
  author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia},
  journal={arXiv preprint arXiv:2212.07143},
  year={2022}
}