開源CLIP - vit - base - patch32模型：理解圖文關係，支持零樣本圖像分類！

首頁

Clip Vit Base Patch32

由openai開發

CLIP是由OpenAI開發的多模態模型，能夠理解圖像和文本之間的關係，支持零樣本圖像分類任務。

圖像生成文本 #零樣本圖像分類 #多模態對比學習 #英語視覺理解

下載量 14.0M

發布時間 : 3/2/2022

模型概述

CLIP模型通過對比學習訓練圖像和文本編碼器，實現跨模態理解，主要用於研究計算機視覺任務的魯棒性和泛化能力。

模型特點

零樣本學習能力

無需特定任務微調即可執行新類別的圖像分類

多模態理解

同時處理視覺和文本信息，建立跨模態關聯

魯棒性研究

專為研究計算機視覺模型的魯棒性和泛化能力設計

模型能力

圖像-文本匹配

零樣本圖像分類

跨模態檢索

圖像理解

使用案例

學術研究

模型魯棒性分析

用於研究計算機視覺模型在不同數據集上的表現差異

論文中展示了在OCR、紋理識別等任務上的評估結果

跨模態應用

圖像搜索

通過自然語言描述檢索相關圖像

🚀 模型卡片：CLIP

CLIP模型由OpenAI的研究人員開發，旨在探究計算機視覺任務中影響魯棒性的因素，同時測試模型以零樣本方式泛化到任意圖像分類任務的能力。它並非為通用模型部署而設計，研究人員若要部署類似CLIP的模型，需先仔細研究其在特定部署環境中的能力。

🚀 快速開始

此模型卡片取自並修改自官方CLIP倉庫，原文可在此處找到。

✨ 主要特性

跨模態學習：通過對比損失最大化（圖像，文本）對的相似度，實現圖像和文本的跨模態理解。
零樣本學習：能夠在未進行特定任務訓練的情況下，對圖像進行分類。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

基礎用法

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities

📚 詳細文檔

模型詳情

模型日期

2021年1月

模型類型

該模型使用ViT - B/32 Transformer架構作為圖像編碼器，使用掩碼自注意力Transformer作為文本編碼器。這些編碼器通過對比損失進行訓練，以最大化（圖像，文本）對的相似度。

原始實現有兩個變體：一個使用ResNet圖像編碼器，另一個使用視覺Transformer。本倉庫使用的是視覺Transformer變體。

模型使用

預期用途

此模型是為研究社區提供的研究成果。希望該模型能幫助研究人員更好地理解和探索零樣本、任意圖像分類任務。也期望它可用於跨學科研究，分析此類模型的潛在影響。CLIP論文中包含了對潛在下游影響的討論，可作為此類分析的示例。

主要預期用戶

主要預期用戶為AI研究人員。

主要使用場景

研究人員主要將該模型用於更好地理解計算機視覺模型的魯棒性、泛化能力以及其他特性、偏差和限制。

非預期使用場景

部署使用：目前，模型的任何部署用例（無論是否商業用途）都不在預期範圍內。除非對模型在特定、固定的類別分類法下進行了全面的領域內測試，否則不建議用於非部署用例，如圖像搜索。因為安全評估表明，考慮到CLIP在不同類別分類法下的性能差異，非常有必要進行特定任務測試。所以，在未經測試和無約束的情況下部署模型，目前可能會帶來危害。
監控和人臉識別：無論模型性能如何，涉及監控和人臉識別領域的用例始終不在預期範圍內。因為目前缺乏確保人工智能公平使用的測試規範和檢查機制，將其用於此類任務可能還為時過早。
非英語語言：由於模型未針對英語以外的語言進行專門訓練和評估，其使用應限於英語用例。

數據

該模型在公開可用的圖像 - 字幕數據上進行訓練。數據通過抓取一些網站和使用常用的現有圖像數據集（如YFCC100M）組合而成。大部分數據來自互聯網抓取，這意味著數據更能代表與互聯網聯繫最緊密的人群和社會，往往偏向於發達國家以及年輕男性用戶。

數據使命聲明

構建此數據集的目標是測試計算機視覺任務中的魯棒性和泛化能力。因此，重點是從不同的公開互聯網數據源收集大量數據。數據收集方式大多是非干預性的，但僅抓取了有政策禁止過度暴力和成人圖像的網站，並對這類內容進行了過濾。不打算將此數據集用作任何商業或部署模型的基礎，也不會發布該數據集。

性能和侷限性

性能

在廣泛的計算機視覺數據集基準測試中評估了CLIP的性能，包括從OCR到紋理識別再到細粒度分類等各種任務。論文描述了模型在以下數據集上的性能：

Food101
CIFAR10
CIFAR100
Birdsnap
SUN397
Stanford Cars
FGVC Aircraft
VOC2007
DTD
Oxford - IIIT Pet dataset
Caltech101
Flowers102
MNIST
SVHN
IIIT5K
Hateful Memes
SST - 2
UCF101
Kinetics700
Country211
CLEVR Counting
KITTI Distance
STL - 10
RareAct
Flickr30
MSCOCO
ImageNet
ImageNet - A
ImageNet - R
ImageNet Sketch
ObjectNet (ImageNet Overlap)
Youtube - BB
ImageNet - Vid

侷限性

任務能力：CLIP目前在某些任務上存在困難，如細粒度分類和對象計數。
公平性和偏差：CLIP在公平性和偏差方面存在問題，論文和下一節會簡要討論。
測試方法：測試CLIP的方法也有重要侷限性。在很多情況下，使用線性探針評估CLIP的性能，有證據表明線性探針可能會低估模型性能。

偏差和公平性

發現CLIP的性能及其表現出的特定偏差，在很大程度上取決於類別設計以及對包含和排除類別的選擇。通過將Fairface中的人物圖像分類到與犯罪相關和非人類動物類別中，測試了CLIP在某些詆譭風險方面的表現。發現了顯著的種族和性別差異，並且這些差異會根據類別構建方式而變化（詳細內容見論文的更廣泛影響部分）。

還使用Fairface數據集測試了CLIP在性別、種族和年齡分類上的性能（默認使用Fairface數據集中構建的種族類別），以評估其在不同人群中的性能質量。發現性別分類在所有種族中的準確率均超過96%，其中“中東人”的準確率最高（98.4%），“白人”的準確率最低（96.5%）。此外，CLIP的種族分類平均準確率約為93%，年齡分類平均準確率約為63%。使用評估來測試性別、種族和年齡分類以及詆譭危害，只是為了評估模型在不同人群中的性能並揭示潛在風險，並非為了支持此類任務。

反饋

發送問題或評論的途徑

請使用此谷歌表單。

信息表格

屬性	詳情
模型類型	該模型使用ViT - B/32 Transformer架構作為圖像編碼器，使用掩碼自注意力Transformer作為文本編碼器，通過對比損失訓練以最大化（圖像，文本）對的相似度。原始實現有ResNet圖像編碼器和視覺Transformer兩個變體，本倉庫使用視覺Transformer變體。
訓練數據	在公開可用的圖像 - 字幕數據上訓練，通過抓取一些網站和使用常用現有圖像數據集（如YFCC100M）組合而成，大部分數據來自互聯網抓取。