🚀 CLIP ViT-H/14 - LAION-2B 模型卡片
CLIP ViT-H/14 - LAION-2B 模型是使用 OpenCLIP 在 LAION-5B 的英语子集 LAION-2B 上训练得到的。该模型可用于零样本图像分类、图像和文本检索等任务,为研究人员提供了探索零样本图像分类的工具。
🚀 快速开始
使用以下代码开始使用该模型:
✨ 主要特性
- 研究导向:作为研究成果,旨在帮助研究人员理解和探索零样本、任意图像分类。
- 多用途:可用于零样本图像分类、图像和文本检索、图像分类微调、图像生成引导等多种任务。
📦 安装指南
暂未提供安装步骤,可参考相关库(如 open_clip
)的官方文档进行安装。
💻 使用示例
基础用法
高级用法
📚 详细文档
模型详情
- 模型描述:一个 CLIP ViT-H/14 模型,使用 OpenCLIP 在 LAION-5B 的英语子集 LAION-2B(https://laion.ai/blog/laion-5b/)上进行训练。模型由 Romain Beaumont 在 stability.ai 集群上完成训练。
- 使用场景
- 直接使用:零样本图像分类、图像和文本检索等。
- 下游使用:图像分类和其他图像任务微调、线性探针图像分类、图像生成引导和条件等。
- 超出范围的使用:目前任何模型的部署用例(无论是否商业用途)都超出范围。未部署的用例如在受限环境中的图像搜索,除非对模型进行特定、固定类别的彻底领域内测试,否则也不推荐。此外,涉及监控和人脸识别的用例始终超出范围。由于模型仅在英语上训练和评估,其使用应限于英语用例。
训练详情
- 训练数据:使用 LAION-5B 的 20 亿样本英语子集进行训练。该数据集未经过精心筛选,收集的链接可能包含令人不适的内容。可通过安全标签过滤出“安全”子集,但不能完全排除有害内容。不建议使用该数据集创建工业产品,目前相关基础研究仍在进行中。
- 训练过程:请参考 训练笔记 和 wandb 日志。
评估
- 评估方式:使用 LAION CLIP 基准套件 中的代码进行评估。
- 测试数据、因素和指标
- 测试数据:分类任务使用 VTAB+(VTAB 与额外鲁棒性数据集的组合),检索任务使用 COCO 和 Flickr。
- 结果:该模型在 ImageNet-1k 上实现了 78.0 的零样本 top-1 准确率。更广泛数据集的初始基准测试结果可在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。
🔧 技术细节
- 模型类型:CLIP ViT-H/14
- 训练数据:LAION-5B 的英语子集 LAION-2B
| 属性 | 详情 |
|------|------|
| 模型类型 | CLIP ViT-H/14 |
| 训练数据 | LAION-5B 的英语子集 LAION-2B |
📄 许可证
本模型采用 MIT 许可证。
致谢
感谢 stability.ai 提供训练该模型的计算资源。
引用
LAION-5B
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenAI CLIP 论文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP 软件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
⚠️ 重要提示
- 数据集风险:训练使用的 LAION-5B 数据集未经过精心筛选,包含的链接可能指向令人不适的内容。使用演示链接时请谨慎并自行承担风险。
- 使用范围:目前模型的任何部署用例(无论是否商业用途)都超出范围。未部署的用例如在受限环境中的图像搜索,需进行特定、固定类别的彻底领域内测试。涉及监控和人脸识别的用例始终超出范围。由于模型仅在英语上训练和评估,其使用应限于英语用例。
💡 使用建议
- 研究优先:建议将该模型用于研究目的,以更好地理解和探索零样本图像分类。
- 数据过滤:如果使用 LAION-5B 数据集,可通过安全标签过滤出“安全”子集,降低遇到有害内容的风险。