CLIP-ViT-H-14-laion2B-s32B-b79K开源模型 - 支持零样本图像分类和跨模态检索

首页

CLIP ViT H 14 Laion2b S32b B79k

由 ModelsLab 开发

这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型，擅长零样本图像分类和跨模态检索任务。

文本生成图像

Safetensors

开源协议:MIT #零样本图像分类 #多模态检索 #大规模预训练

下载量 132

发布时间 : 1/16/2025

模型简介

该模型采用CLIP架构，通过对比学习将图像和文本映射到共享的嵌入空间，支持零样本图像分类、图像文本检索等任务。

模型特点

大规模训练数据

使用LAION-5B的20亿英语样本子集训练，涵盖广泛的视觉概念

零样本能力

无需微调即可执行新类别的图像分类任务

跨模态理解

同时理解图像和文本，支持图像-文本匹配和检索

模型能力

零样本图像分类

图像文本检索

跨模态嵌入学习

图像内容理解

使用案例

计算机视觉

零样本图像分类

无需训练数据即可对图像进行分类

在ImageNet-1k上达到78.0%的零样本top-1准确率

图像检索

根据文本查询检索相关图像

在COCO和Flickr数据集上表现良好

研究应用

多模态研究

用于研究视觉语言表示学习

模型微调基础

作为下游任务的预训练模型

🚀 CLIP ViT-H/14 - LAION-2B 模型卡片

CLIP ViT-H/14 - LAION-2B 模型是使用 OpenCLIP 在 LAION-5B 的英语子集 LAION-2B 上训练得到的。该模型可用于零样本图像分类、图像和文本检索等任务，为研究人员提供了探索零样本图像分类的工具。

🚀 快速开始

使用以下代码开始使用该模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

研究导向：作为研究成果，旨在帮助研究人员理解和探索零样本、任意图像分类。
多用途：可用于零样本图像分类、图像和文本检索、图像分类微调、图像生成引导等多种任务。

📦 安装指南

暂未提供安装步骤，可参考相关库（如 open_clip）的官方文档进行安装。

💻 使用示例

基础用法

# 此处应补充基础使用代码示例

高级用法

# 此处应补充高级使用代码示例

📚 详细文档

模型详情

模型描述：一个 CLIP ViT-H/14 模型，使用 OpenCLIP 在 LAION-5B 的英语子集 LAION-2B（https://laion.ai/blog/laion-5b/）上进行训练。模型由 Romain Beaumont 在 stability.ai 集群上完成训练。
使用场景
- 直接使用：零样本图像分类、图像和文本检索等。
- 下游使用：图像分类和其他图像任务微调、线性探针图像分类、图像生成引导和条件等。
- 超出范围的使用：目前任何模型的部署用例（无论是否商业用途）都超出范围。未部署的用例如在受限环境中的图像搜索，除非对模型进行特定、固定类别的彻底领域内测试，否则也不推荐。此外，涉及监控和人脸识别的用例始终超出范围。由于模型仅在英语上训练和评估，其使用应限于英语用例。

训练详情

训练数据：使用 LAION-5B 的 20 亿样本英语子集进行训练。该数据集未经过精心筛选，收集的链接可能包含令人不适的内容。可通过安全标签过滤出“安全”子集，但不能完全排除有害内容。不建议使用该数据集创建工业产品，目前相关基础研究仍在进行中。
训练过程：请参考训练笔记和 wandb 日志。

评估

评估方式：使用 LAION CLIP 基准套件中的代码进行评估。
测试数据、因素和指标
- 测试数据：分类任务使用 VTAB+（VTAB 与额外鲁棒性数据集的组合），检索任务使用 COCO 和 Flickr。
- 结果：该模型在 ImageNet-1k 上实现了 78.0 的零样本 top-1 准确率。更广泛数据集的初始基准测试结果可在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。

🔧 技术细节

模型类型：CLIP ViT-H/14
训练数据：LAION-5B 的英语子集 LAION-2B | 属性 | 详情 | |------|------| | 模型类型 | CLIP ViT-H/14 | | 训练数据 | LAION-5B 的英语子集 LAION-2B |

📄 许可证

本模型采用 MIT 许可证。

致谢

感谢 stability.ai 提供训练该模型的计算资源。

引用

LAION-5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenAI CLIP 论文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP 软件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

⚠️ 重要提示

数据集风险：训练使用的 LAION-5B 数据集未经过精心筛选，包含的链接可能指向令人不适的内容。使用演示链接时请谨慎并自行承担风险。
使用范围：目前模型的任何部署用例（无论是否商业用途）都超出范围。未部署的用例如在受限环境中的图像搜索，需进行特定、固定类别的彻底领域内测试。涉及监控和人脸识别的用例始终超出范围。由于模型仅在英语上训练和评估，其使用应限于英语用例。