CLIP-ViT-B-32-laion2B-s34B-b79K开源视觉-语言模型 - 实现零样本图像分类与跨模态检索

首页

CLIP ViT B 32 Laion2b S34b B79k

由 recallapp 开发

基于OpenCLIP框架在LAION-2B英语数据集上训练的视觉-语言模型，支持零样本图像分类和跨模态检索

文本生成图像

Safetensors

开源协议:MIT #零样本图像分类 #多模态检索 #英语文本适配

下载量 17

发布时间 : 1/12/2025

模型简介

该模型是CLIP架构的变体，使用ViT-B/32视觉编码器，通过对比学习在图像-文本对上训练，可实现无需微调的零样本图像分类和跨模态检索任务。

模型特点

零样本学习能力

无需特定任务微调即可执行新类别的图像分类

跨模态理解

能够将视觉和文本信息映射到共享的嵌入空间

大规模训练

在LAION-2B数据集（20亿图像-文本对）上训练

模型能力

零样本图像分类

图像-文本匹配

跨模态检索

图像特征提取

使用案例

内容检索

基于文本的图像搜索

使用自然语言查询检索相关图像

图像分类

零样本分类

无需训练即可对新类别进行分类

在ImageNet-1k上达到66.6%的零样本top-1准确率

🚀 CLIP ViT - B/32 - LAION - 2B 模型

CLIP ViT - B/32 - LAION - 2B 是基于 OpenCLIP 框架，使用 LAION - 5B 的英文子集 LAION - 2B 训练的模型。该模型可用于零样本图像分类、图像和文本检索等任务，为研究人员探索零样本图像分类提供了有力工具。

🚀 快速开始

使用以下代码开始使用该模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

多用途：可用于零样本图像分类、图像和文本检索等直接任务，也可用于图像分类微调、线性探针图像分类等下游任务。
研究导向：旨在为研究社区提供研究输出，助力研究人员更好地理解和探索零样本、任意图像分类。

📦 安装指南

文档未提及安装步骤，暂无法提供。

💻 使用示例

文档未提供代码示例，暂无法展示。

📚 详细文档

模型详情

模型描述：这是一个 CLIP ViT - B/32 模型，使用 OpenCLIP 在 LAION - 5B 的英文子集 LAION - 2B（https://laion.ai/blog/laion - 5b/）上进行训练。模型由 Romain Beaumont 在 stability.ai 集群上完成训练。

用途

直接用途：零样本图像分类、图像和文本检索等。
下游用途：图像分类及其他图像任务微调、线性探针图像分类、图像生成引导和条件设定等。
超出适用范围的用途：
- 目前，模型的任何部署用例（无论是否商业用途）都超出了适用范围。非部署用例（如在受限环境中的图像搜索）也不建议使用，除非对模型进行特定、固定类别的彻底领域测试。因为安全评估表明，鉴于 CLIP 在不同类别分类中的性能差异，需要进行特定任务测试。未经测试和无约束地部署模型在任何用例中目前都可能有害。
- 任何属于监控和人脸识别领域的用例，无论模型性能如何，都始终超出适用范围。因为目前缺乏确保公平使用的测试规范和检查，使用人工智能进行此类任务还为时过早。
- 由于模型仅在英语上进行训练和评估，其使用应限于英语用例。此外，用于训练这些模型的 LAION - 5B 数据集还有其他注意事项。

训练详情

训练数据：该模型使用 LAION - 5B 的 20 亿样本英文子集进行训练。需注意，该数据集是未经过精心筛选的大规模数据集，从公开互联网爬取而来。收集的链接可能包含令人不适和不安的内容，建议仅用于研究目的。可以通过基于安全标签过滤样本（使用自定义训练的 NSFW 分类器）提取“安全”子集，但不能完全排除有害内容的存在。不建议使用该数据集创建现成的工业产品，因为关于此类大规模模型的一般属性和安全性的基础研究仍在进行中。
训练过程：请参阅训练笔记和 [wandb 日志](https://wandb.ai/rom1504/eval_openclip/reports/B - 32 - 2B -- VmlldzoyNDkwNDMy)。

评估

评估方式：使用 [LAION CLIP 基准套件](https://github.com/LAION - AI/CLIP_benchmark) 中的代码进行评估。
测试数据、因素和指标：
- 测试数据：分类任务使用 VTAB +（VTAB（https://arxiv.org/abs/1910.04867）与其他鲁棒性数据集的组合），检索任务使用 COCO 和 Flickr。
结果：该模型在 ImageNet - 1k 上实现了 66.6 的零样本 top - 1 准确率。已在更广泛的数据集上进行了初步基准测试，目前可在 https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。

致谢

感谢 stability.ai 提供训练模型所需的计算资源。

引用

除了即将发布的 LAION - 5B 论文（https://laion.ai/blog/laion - 5b/）外，请引用以下内容：

OpenAI CLIP 论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP 软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}