🚀 模型卡片:CLIP
CLIP模型由OpenAI的研究人員開發,旨在探究計算機視覺任務中影響魯棒性的因素,同時測試模型以零樣本方式泛化到任意圖像分類任務的能力。它並非為通用模型部署而設計,研究人員若要部署類似CLIP的模型,需先仔細研究其在特定部署環境中的能力。
🚀 快速開始
此模型卡片取自並修改自官方CLIP倉庫,原文可在此處找到。
✨ 主要特性
- 跨模態學習:通過對比損失最大化(圖像,文本)對的相似度,實現圖像和文本的跨模態理解。
- 零樣本學習:能夠在未進行特定任務訓練的情況下,對圖像進行分類。
📦 安裝指南
暫未提供相關安裝步驟。
💻 使用示例
基礎用法
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities
📚 詳細文檔
模型詳情
模型日期
2021年1月
模型類型
該模型使用ViT - B/32 Transformer架構作為圖像編碼器,使用掩碼自注意力Transformer作為文本編碼器。這些編碼器通過對比損失進行訓練,以最大化(圖像,文本)對的相似度。
原始實現有兩個變體:一個使用ResNet圖像編碼器,另一個使用視覺Transformer。本倉庫使用的是視覺Transformer變體。
相關文檔
模型使用
預期用途
此模型是為研究社區提供的研究成果。希望該模型能幫助研究人員更好地理解和探索零樣本、任意圖像分類任務。也期望它可用於跨學科研究,分析此類模型的潛在影響。CLIP論文中包含了對潛在下游影響的討論,可作為此類分析的示例。
主要預期用戶
主要預期用戶為AI研究人員。
主要使用場景
研究人員主要將該模型用於更好地理解計算機視覺模型的魯棒性、泛化能力以及其他特性、偏差和限制。
非預期使用場景
- 部署使用:目前,模型的任何部署用例(無論是否商業用途)都不在預期範圍內。除非對模型在特定、固定的類別分類法下進行了全面的領域內測試,否則不建議用於非部署用例,如圖像搜索。因為安全評估表明,考慮到CLIP在不同類別分類法下的性能差異,非常有必要進行特定任務測試。所以,在未經測試和無約束的情況下部署模型,目前可能會帶來危害。
- 監控和人臉識別:無論模型性能如何,涉及監控和人臉識別領域的用例始終不在預期範圍內。因為目前缺乏確保人工智能公平使用的測試規範和檢查機制,將其用於此類任務可能還為時過早。
- 非英語語言:由於模型未針對英語以外的語言進行專門訓練和評估,其使用應限於英語用例。
數據
該模型在公開可用的圖像 - 字幕數據上進行訓練。數據通過抓取一些網站和使用常用的現有圖像數據集(如YFCC100M)組合而成。大部分數據來自互聯網抓取,這意味著數據更能代表與互聯網聯繫最緊密的人群和社會,往往偏向於發達國家以及年輕男性用戶。
數據使命聲明
構建此數據集的目標是測試計算機視覺任務中的魯棒性和泛化能力。因此,重點是從不同的公開互聯網數據源收集大量數據。數據收集方式大多是非干預性的,但僅抓取了有政策禁止過度暴力和成人圖像的網站,並對這類內容進行了過濾。不打算將此數據集用作任何商業或部署模型的基礎,也不會發布該數據集。
性能和侷限性
性能
在廣泛的計算機視覺數據集基準測試中評估了CLIP的性能,包括從OCR到紋理識別再到細粒度分類等各種任務。論文描述了模型在以下數據集上的性能:
- Food101
- CIFAR10
- CIFAR100
- Birdsnap
- SUN397
- Stanford Cars
- FGVC Aircraft
- VOC2007
- DTD
- Oxford - IIIT Pet dataset
- Caltech101
- Flowers102
- MNIST
- SVHN
- IIIT5K
- Hateful Memes
- SST - 2
- UCF101
- Kinetics700
- Country211
- CLEVR Counting
- KITTI Distance
- STL - 10
- RareAct
- Flickr30
- MSCOCO
- ImageNet
- ImageNet - A
- ImageNet - R
- ImageNet Sketch
- ObjectNet (ImageNet Overlap)
- Youtube - BB
- ImageNet - Vid
侷限性
- 任務能力:CLIP目前在某些任務上存在困難,如細粒度分類和對象計數。
- 公平性和偏差:CLIP在公平性和偏差方面存在問題,論文和下一節會簡要討論。
- 測試方法:測試CLIP的方法也有重要侷限性。在很多情況下,使用線性探針評估CLIP的性能,有證據表明線性探針可能會低估模型性能。
偏差和公平性
發現CLIP的性能及其表現出的特定偏差,在很大程度上取決於類別設計以及對包含和排除類別的選擇。通過將Fairface中的人物圖像分類到與犯罪相關和非人類動物類別中,測試了CLIP在某些詆譭風險方面的表現。發現了顯著的種族和性別差異,並且這些差異會根據類別構建方式而變化(詳細內容見論文的更廣泛影響部分)。
還使用Fairface數據集測試了CLIP在性別、種族和年齡分類上的性能(默認使用Fairface數據集中構建的種族類別),以評估其在不同人群中的性能質量。發現性別分類在所有種族中的準確率均超過96%,其中“中東人”的準確率最高(98.4%),“白人”的準確率最低(96.5%)。此外,CLIP的種族分類平均準確率約為93%,年齡分類平均準確率約為63%。使用評估來測試性別、種族和年齡分類以及詆譭危害,只是為了評估模型在不同人群中的性能並揭示潛在風險,並非為了支持此類任務。
反饋
發送問題或評論的途徑
請使用此谷歌表單。
信息表格
屬性 |
詳情 |
模型類型 |
該模型使用ViT - B/32 Transformer架構作為圖像編碼器,使用掩碼自注意力Transformer作為文本編碼器,通過對比損失訓練以最大化(圖像,文本)對的相似度。原始實現有ResNet圖像編碼器和視覺Transformer兩個變體,本倉庫使用視覺Transformer變體。 |
訓練數據 |
在公開可用的圖像 - 字幕數據上訓練,通過抓取一些網站和使用常用現有圖像數據集(如YFCC100M)組合而成,大部分數據來自互聯網抓取。 |