clip-vit-large-patch14開源視覺-語言模型 - 免費部署實現零樣本圖像分類

首頁

Clip Vit Large Patch14

由openai開發

CLIP是由OpenAI開發的視覺-語言模型，通過對比學習將圖像和文本映射到共享的嵌入空間，支持零樣本圖像分類

圖像生成文本 #零樣本圖像分類 #多模態對比學習 #開放域視覺理解

下載量 44.7M

發布時間 : 3/2/2022

模型概述

CLIP模型通過聯合訓練圖像編碼器和文本編碼器，學習圖像和文本之間的語義對應關係，可用於零樣本圖像分類、跨模態檢索等任務。

模型特點

零樣本學習能力

無需特定任務微調即可執行新的圖像分類任務

多模態理解

同時理解視覺和文本信息，建立跨模態關聯

強泛化性

在廣泛的數據集上展示出良好的泛化性能

模型能力

零樣本圖像分類

圖像-文本匹配

跨模態檢索

多模態特徵提取

使用案例

計算機視覺研究

魯棒性研究

研究計算機視覺模型的魯棒性和泛化性

在30+個數據集上評估了性能

零樣本分類

無需訓練即可對任意類別進行圖像分類

跨模態應用

圖像搜索

使用自然語言查詢搜索相關圖像

🚀 CLIP模型卡片

CLIP模型由OpenAI的研究人員開發，用於研究計算機視覺任務中的魯棒性因素，同時也用於測試模型以零樣本方式泛化到任意圖像分類任務的能力。該模型並非用於通用模型部署，研究人員若要部署類似CLIP的模型，需先仔細研究其在特定部署環境中的能力。

🚀 快速開始

使用transformers庫調用CLIP模型的示例代碼如下：

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-large-patch14")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-large-patch14")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities

✨ 主要特性

跨模態學習：CLIP能夠學習圖像和文本之間的關聯，通過對比損失最大化（圖像，文本）對的相似度。
零樣本學習：可以在沒有特定任務訓練數據的情況下進行圖像分類。

📦 模型詳情

模型日期

2021年1月

模型類型

屬性	詳情
模型類型	基礎模型使用ViT - L/14 Transformer架構作為圖像編碼器，使用掩碼自注意力Transformer作為文本編碼器。這些編碼器通過對比損失進行訓練，以最大化（圖像，文本）對的相似度。原始實現有兩個變體：一個使用ResNet圖像編碼器，另一個使用視覺Transformer。本倉庫使用的是視覺Transformer變體。
訓練數據	模型在公開可用的圖像 - 文本數據上進行訓練，通過抓取一些網站和使用常用的現有圖像數據集（如YFCC100M）組合而成。大部分數據來自互聯網抓取。

文檔

📚 模型使用

預期用途

主要預期用戶：該模型主要面向AI研究人員，旨在幫助他們更好地理解和探索零樣本、任意圖像分類。
主要用途：研究人員可藉助該模型深入瞭解計算機視覺模型的魯棒性、泛化能力以及其他特性、偏差和限制。

非預期使用場景

部署使用：目前，模型的任何部署使用場景（無論是否商業用途）均不在預期範圍內。除非對模型在特定、固定類別分類法下進行了全面的領域內測試，否則不建議在受限環境中進行圖像搜索等非部署使用場景。因為安全評估表明，鑑於CLIP在不同類別分類法下的性能差異，需要進行特定任務測試。
特定領域：涉及監控和人臉識別領域的使用場景，無論模型性能如何，均不在預期範圍內。因為目前缺乏確保其公平使用的測試規範和檢查，使用人工智能進行此類任務可能為時過早。
語言限制：由於模型僅在英語上進行訓練和評估，其使用應限於英語使用場景。

🔧 性能與限制

性能

CLIP在廣泛的計算機視覺數據集基準測試中進行了評估，涵蓋從OCR到紋理識別再到細粒度分類等多種任務。論文描述了模型在以下數據集上的性能：

Food101
CIFAR10
CIFAR100
Birdsnap
SUN397
Stanford Cars
FGVC Aircraft
VOC2007
DTD
Oxford - IIIT Pet dataset
Caltech101
Flowers102
MNIST
SVHN
IIIT5K
Hateful Memes
SST - 2
UCF101
Kinetics700
Country211
CLEVR Counting
KITTI Distance
STL - 10
RareAct
Flickr30
MSCOCO
ImageNet
ImageNet - A
ImageNet - R
ImageNet Sketch
ObjectNet (ImageNet Overlap)
Youtube - BB
ImageNet - Vid

限制

任務表現：CLIP在某些任務上存在困難，如細粒度分類和物體計數。
公平性和偏差：CLIP在公平性和偏差方面存在問題，其性能和特定偏差可能顯著取決於類別設計以及對包含和排除類別的選擇。
測試方法：在測試CLIP時，使用線性探針評估其性能可能會低估模型的實際表現。

偏差與公平性

類別設計影響：CLIP的性能和特定偏差顯著依賴於類別設計以及對類別包含和排除的選擇。
實驗結果：通過將Fairface中的人物圖像分類到與犯罪相關和非人類動物類別中，測試了CLIP的某些詆譭風險，發現存在顯著的種族和性別差異，且這些差異會根據類別構建方式而變化。
分類準確率：使用Fairface數據集對CLIP在性別、種族和年齡分類上的性能進行測試，發現性別分類在所有種族中的準確率>96%，其中“中東”準確率最高（98.4%），“白人”最低（96.5%）；種族分類平均約93%，年齡分類約63%。