🚀 vit_large_patch14_clip_336.openai模型卡片
本项目提供了一个适用于timm
和OpenCLIP
库的CLIP模型,可用于零样本图像分类研究,助力研究者探索计算机视觉模型的鲁棒性和泛化能力。
🚀 快速开始
此CLIP模型实例可在以下库中加载:
timm
(https://github.com/rwightman/pytorch-image-models)
OpenCLIP
(https://github.com/mlfoundations/open_clip)
若要在Hugging Face Transformers中使用,请参阅https://huggingface.co/openai/clip-vit-large-patch14-336 。
✨ 主要特性
- 由OpenAI的研究人员开发,用于研究计算机视觉任务中的鲁棒性以及模型零样本泛化到任意图像分类任务的能力。
- 使用ViT-L/14 (336x336) Transformer架构作为图像编码器,使用掩码自注意力Transformer作为文本编码器,并通过对比损失最大化(图像,文本)对的相似度。
📚 详细文档
📦 模型详情
模型日期
2021年1月
模型类型
属性 |
详情 |
模型类型 |
该模型使用ViT-L/14 (336x336) Transformer架构作为图像编码器,并使用掩码自注意力Transformer作为文本编码器。这些编码器通过对比损失进行训练,以最大化(图像,文本)对的相似度。原始实现有两个变体:一个使用ResNet图像编码器,另一个使用视觉Transformer。本仓库使用的是视觉Transformer变体。 |
训练数据 |
该模型在公开可用的图像 - 字幕数据上进行训练。这是通过抓取一些网站并结合使用常用的现有图像数据集(如YFCC100M)来完成的。大部分数据来自互联网抓取,这意味着数据更能代表与互联网连接最紧密的人群和社会,往往倾向于更发达的国家以及年轻的男性用户。 |
💻 模型使用
预期用途
主要预期用途
该模型主要面向AI研究人员,旨在作为研究成果供研究社区使用。希望该模型能帮助研究人员更好地理解和探索零样本、任意图像分类,也可用于跨学科研究此类模型的潜在影响。
超出范围的用例
⚠️ 重要提示
- 模型的任何部署用例(无论是否商业用途)目前都超出范围。除非对模型在特定、固定的类别分类法下进行了彻底的领域内测试,否则不建议使用非部署用例,如图像搜索。
- 某些属于监控和面部识别领域的用例无论模型性能如何,始终超出范围。
- 由于模型仅在英语上进行了训练和评估,其使用应限于英语用例。
🔧 技术细节
局限性
CLIP及其分析存在一些局限性。目前,CLIP在某些任务(如细粒度分类和对象计数)上表现不佳,在公平性和偏差方面也存在问题。此外,测试CLIP的方法也有重要局限性,因为在许多情况下使用线性探针评估CLIP性能,有证据表明线性探针可能低估模型性能。
偏差和公平性
CLIP的性能和特定偏差在很大程度上取决于类别设计以及对包含和排除类别的选择。通过将Fairface中的人物图像分类到与犯罪相关和非人类动物类别中,测试了CLIP的某些诋毁风险,发现了基于种族和性别的显著差异,且这些差异会根据类别构建方式而变化。
使用Fairface数据集测试了CLIP在性别、种族和年龄分类上的性能,发现性别分类在所有种族中的准确率>96%,其中“中东”准确率最高(98.4%),“白人”最低(96.5%)。此外,CLIP的种族分类平均准确率约为93%,年龄分类约为63%。对性别、种族和年龄分类以及诋毁危害的评估仅用于评估模型在不同人群中的性能并揭示潜在风险,并非支持此类任务。
📄 许可证
本项目采用Apache-2.0许可证。