vit_base_patch16_clip_224.openai开源模型 - 支持零样本图像分类的视觉语言利器

首页

Vit Base Patch16 Clip 224.openai

由 timm 开发

CLIP是由OpenAI开发的视觉-语言模型，通过对比学习训练图像和文本编码器，支持零样本图像分类。

文本生成图像

Transformers

开源协议:Apache-2.0 #零样本图像分类 #多模态对比学习 #视觉-文本对齐

下载量 618.17k

发布时间 : 11/1/2022

模型简介

CLIP模型探索计算机视觉任务的鲁棒性因素，并测试模型以零样本方式泛化到任意图像分类任务的能力。

模型特点

零样本泛化能力

无需特定任务微调即可执行多种图像分类任务

多模态对比学习

通过对比损失联合训练图像和文本编码器

变换器架构

采用ViT-B/16视觉变换器和文本变换器编码器

模型能力

零样本图像分类

图像-文本相似度计算

跨模态特征提取

使用案例

学术研究

计算机视觉鲁棒性研究

探索模型在不同分布数据上的表现

论文中展示了跨数据集泛化能力

多模态学习研究

研究视觉与语言表征的联合学习

证明了对比学习的有效性

🚀 CLIP (适用于timm的OpenAI模型)

CLIP模型由OpenAI的研究人员开发，旨在探究计算机视觉任务中影响模型鲁棒性的因素，同时测试模型以零样本方式泛化到任意图像分类任务的能力。该模型并非为通用部署而设计，若要部署类似CLIP的模型，研究人员需先深入研究其在具体应用场景中的性能。

🚀 快速开始

此CLIP模型实例可在以下库中加载：

timm (https://github.com/rwightman/pytorch-image-models)
OpenCLIP (https://github.com/mlfoundations/open_clip)

如需在Hugging Face Transformers中使用，请参考https://huggingface.co/openai/clip-vit-base-patch16 。

✨ 主要特性

研究驱动：用于研究计算机视觉任务中的鲁棒性和零样本泛化能力。
多库支持：可在timm和OpenCLIP库中加载。

📦 安装指南

文档未提及安装步骤，暂不提供。

📚 详细文档

模型详情

模型日期：2021年1月
模型类型：该模型使用ViT - B/16 Transformer架构作为图像编码器，使用掩码自注意力Transformer作为文本编码器。通过对比损失函数，训练这些编码器以最大化（图像，文本）对的相似度。原始实现有两个变体：一个使用ResNet图像编码器，另一个使用视觉Transformer。此仓库中的是使用视觉Transformer的变体。
相关文档：
- 博客文章
- CLIP论文

模型使用

预期用途：该模型是为研究社区提供的研究成果。希望能帮助研究人员更好地理解和探索零样本、任意图像分类任务。也可用于跨学科研究此类模型的潜在影响，CLIP论文中包含了对潜在下游影响的讨论，为这类分析提供了示例。
- 主要预期用户：主要是AI研究人员。
- 主要预期用途：研究人员主要用该模型来更好地理解计算机视觉模型的鲁棒性、泛化能力以及其他性能、偏差和限制。
非预期使用场景：
- 目前，模型的任何部署用例（无论是否商业用途）都不在预期范围内。非部署用例，如在受限环境中的图像搜索，除非对模型在特定、固定的类别分类法下进行了全面的领域内测试，否则也不建议使用。因为安全评估表明，鉴于CLIP在不同类别分类法下的性能差异，非常需要进行特定任务的测试。这使得在任何未经测试和不受约束的用例中部署该模型目前都可能有害。
- 某些属于监控和人脸识别领域的用例，无论模型性能如何，都不在预期范围内。因为目前缺乏确保公平使用的测试规范和检查，使用人工智能进行此类任务可能为时过早。
- 由于该模型未针对英语以外的语言进行专门训练和评估，其使用应限于英语用例。

数据

训练数据：该模型在公开可用的图像 - 文本对数据上进行训练。通过抓取一些网站和使用常用的现有图像数据集（如YFCC100M）来收集数据。大部分数据来自互联网抓取，这意味着数据更能代表与互联网联系更紧密的人群和社会，往往偏向于更发达的国家以及年轻的男性用户。
数据使命声明：构建此数据集的目标是测试计算机视觉任务中的鲁棒性和泛化能力。因此，重点是从不同的公开互联网数据源收集大量数据。数据收集大多采用非干预方式，但仅抓取了有政策禁止过度暴力和成人图像并允许过滤此类内容的网站。不打算将此数据集用作任何商业或部署模型的基础，也不会发布该数据集。

局限性

任务局限性：CLIP目前在某些任务上存在困难，如细粒度分类和对象计数。
公平性和偏差问题：CLIP在公平性和偏差方面存在问题，论文中对此进行了讨论，下一节也会简要提及。此外，测试CLIP的方法也有重要局限性，在很多情况下使用线性探针来评估CLIP的性能，有证据表明线性探针可能低估模型性能。
偏差和公平性：发现CLIP的性能及其表现出的特定偏差可能在很大程度上取决于类别设计以及对包含和排除类别的选择。通过将Fairface中的人物图像分类到与犯罪相关和非人类动物类别中，测试了CLIP存在的某些诋毁风险。发现种族和性别方面存在显著差异，并且这些差异可能会根据类别构建方式而变化（详细内容见论文的更广泛影响部分）。
- 使用Fairface数据集测试了CLIP在性别、种族和年龄分类上的性能（默认使用Fairface数据集中构建的种族类别），以评估其在不同人群中的性能质量。发现性别分类在所有种族中的准确率 > 96%，其中“中东人”的准确率最高（98.4%），“白人”的准确率最低（96.5%）。此外，CLIP的种族分类平均准确率约为93%，年龄分类平均准确率约为63%。使用评估来测试性别、种族和年龄分类以及诋毁危害，只是为了评估模型在不同人群中的性能并揭示潜在风险，而不是为了表明对这些任务的认可或热衷。