🚀 CLIP ViT - B/32 - LAION - 2B 模型卡
本模型基于 LAION - 2B 英文子集进行训练,旨在助力研究人员开展零样本、任意图像分类研究,可用于图像分类、检索等多种任务。
🚀 快速开始
使用以下代码开始使用该模型:
✨ 主要特性
- 基于 CLIP ViT - B/32 架构,使用 LAION - 2B 英文子集训练。
- 可用于零样本图像分类、图像和文本检索等多种任务。
- 为研究社区提供研究输出,助力探索零样本图像分类。
📦 安装指南
文档未提及具体安装步骤,暂不展示。
💻 使用示例
文档未提供代码示例,暂不展示。
📚 详细文档
模型详情
模型描述
这是一个 CLIP ViT - B/32 模型,使用 OpenCLIP(https://github.com/mlfoundations/open_clip),基于 LAION - 5B 的 20 亿样本英文子集(https://laion.ai/blog/laion - 5b/)进行训练。模型由 Romain Beaumont 在 stability.ai 集群上完成训练。
用途
- 直接用途:零样本图像分类、图像和文本检索等。
- 下游用途:图像分类及其他图像任务微调、线性探针图像分类、图像生成引导和条件设定等。
- 非适用用途:
- 目前,模型的任何部署用例(无论是否商业用途)都超出范围。非部署用例,如在受限环境中的图像搜索,除非对模型进行特定、固定类别分类法的全面领域测试,否则也不建议使用。因为安全评估表明,鉴于 CLIP 在不同类别分类法下性能的可变性,非常需要进行特定任务测试。这使得未经测试和无约束的模型部署在任何用例中目前都可能有害。
- 某些属于监控和人脸识别领域的用例,无论模型性能如何,始终不在适用范围内。因为目前缺乏确保公平使用的测试规范和检查,使用人工智能进行此类任务可能还为时过早。
- 由于模型仅在英语环境下进行训练和评估,其使用应限于英语用例。
训练详情
训练数据
该模型使用 LAION - 5B 的 20 亿样本英文子集(https://laion.ai/blog/laion - 5b/)进行训练。
⚠️ 重要提示
数据集创建的动机是推动大规模多模态模型训练和处理从公开互联网爬取的未整理大规模数据集的研究和实验。因此建议将数据集用于研究目的。请注意,这个大规模数据集未经过整理,收集的链接可能会指向让人类观看者极度不适和不安的内容。因此,请谨慎使用演示链接,并自担风险。可以通过基于安全标签过滤样本(使用我们构建的自定义训练的 NSFW 分类器)提取“安全”子集。虽然这大大降低了查看时遇到潜在有害内容的可能性,但我们不能完全排除安全模式下仍存在有害内容的可能性,因此警告仍然适用。我们认为,向广泛的研究和其他感兴趣的社区公开提供数据集,将有助于透明地研究训练大规模模型带来的好处,以及在使用仅限于小社区的封闭大型数据集时可能未报告或未注意到的陷阱和危险。然而,我们不建议使用该数据集创建现成的工业产品,因为关于此类大规模模型的一般属性和安全性的基础研究仍在进行中。
训练过程
请参阅 训练笔记 和 [wandb 日志](https://wandb.ai/rom1504/eval_openclip/reports/B - 32 - 2B --VmlldzoyNDkwNDMy)。
评估
使用 [LAION CLIP 基准套件](https://github.com/LAION - AI/CLIP_benchmark) 中的代码进行评估。
测试数据、因素和指标
- 测试数据:分类任务使用 VTAB +(VTAB(https://arxiv.org/abs/1910.04867)与额外鲁棒性数据集的组合),检索任务使用 COCO 和 Flickr。
- 结果:该模型在 ImageNet - 1k 上实现了 66.6 的零样本 top - 1 准确率。初步的一轮基准测试已在更广泛的数据集上进行,目前可在 https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。
致谢
感谢 stability.ai 提供训练该模型的计算资源。
引用
除了即将发布的 LAION - 5B(https://laion.ai/blog/laion - 5b/)论文外,请引用以下内容:
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
🔧 技术细节
文档未提供具体技术实现细节(>50 字),暂不展示。
📄 许可证
本模型使用 MIT 许可证。