🚀 CLIP模型卡片
CLIP模型由OpenAI的研究人員開發,用於研究計算機視覺任務中的魯棒性因素,同時也用於測試模型以零樣本方式泛化到任意圖像分類任務的能力。該模型並非用於通用模型部署,研究人員若要部署類似CLIP的模型,需先仔細研究其在特定部署環境中的能力。
🚀 快速開始
使用transformers
庫調用CLIP模型的示例代碼如下:
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("openai/clip-vit-large-patch14")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-large-patch14")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
✨ 主要特性
- 跨模態學習:CLIP能夠學習圖像和文本之間的關聯,通過對比損失最大化(圖像,文本)對的相似度。
- 零樣本學習:可以在沒有特定任務訓練數據的情況下進行圖像分類。
📦 模型詳情
模型日期
2021年1月
模型類型
屬性 |
詳情 |
模型類型 |
基礎模型使用ViT - L/14 Transformer架構作為圖像編碼器,使用掩碼自注意力Transformer作為文本編碼器。這些編碼器通過對比損失進行訓練,以最大化(圖像,文本)對的相似度。原始實現有兩個變體:一個使用ResNet圖像編碼器,另一個使用視覺Transformer。本倉庫使用的是視覺Transformer變體。 |
訓練數據 |
模型在公開可用的圖像 - 文本數據上進行訓練,通過抓取一些網站和使用常用的現有圖像數據集(如YFCC100M)組合而成。大部分數據來自互聯網抓取。 |
文檔
📚 模型使用
預期用途
- 主要預期用戶:該模型主要面向AI研究人員,旨在幫助他們更好地理解和探索零樣本、任意圖像分類。
- 主要用途:研究人員可藉助該模型深入瞭解計算機視覺模型的魯棒性、泛化能力以及其他特性、偏差和限制。
非預期使用場景
- 部署使用:目前,模型的任何部署使用場景(無論是否商業用途)均不在預期範圍內。除非對模型在特定、固定類別分類法下進行了全面的領域內測試,否則不建議在受限環境中進行圖像搜索等非部署使用場景。因為安全評估表明,鑑於CLIP在不同類別分類法下的性能差異,需要進行特定任務測試。
- 特定領域:涉及監控和人臉識別領域的使用場景,無論模型性能如何,均不在預期範圍內。因為目前缺乏確保其公平使用的測試規範和檢查,使用人工智能進行此類任務可能為時過早。
- 語言限制:由於模型僅在英語上進行訓練和評估,其使用應限於英語使用場景。
🔧 性能與限制
性能
CLIP在廣泛的計算機視覺數據集基準測試中進行了評估,涵蓋從OCR到紋理識別再到細粒度分類等多種任務。論文描述了模型在以下數據集上的性能:
- Food101
- CIFAR10
- CIFAR100
- Birdsnap
- SUN397
- Stanford Cars
- FGVC Aircraft
- VOC2007
- DTD
- Oxford - IIIT Pet dataset
- Caltech101
- Flowers102
- MNIST
- SVHN
- IIIT5K
- Hateful Memes
- SST - 2
- UCF101
- Kinetics700
- Country211
- CLEVR Counting
- KITTI Distance
- STL - 10
- RareAct
- Flickr30
- MSCOCO
- ImageNet
- ImageNet - A
- ImageNet - R
- ImageNet Sketch
- ObjectNet (ImageNet Overlap)
- Youtube - BB
- ImageNet - Vid
限制
- 任務表現:CLIP在某些任務上存在困難,如細粒度分類和物體計數。
- 公平性和偏差:CLIP在公平性和偏差方面存在問題,其性能和特定偏差可能顯著取決於類別設計以及對包含和排除類別的選擇。
- 測試方法:在測試CLIP時,使用線性探針評估其性能可能會低估模型的實際表現。
偏差與公平性
- 類別設計影響:CLIP的性能和特定偏差顯著依賴於類別設計以及對類別包含和排除的選擇。
- 實驗結果:通過將Fairface中的人物圖像分類到與犯罪相關和非人類動物類別中,測試了CLIP的某些詆譭風險,發現存在顯著的種族和性別差異,且這些差異會根據類別構建方式而變化。
- 分類準確率:使用Fairface數據集對CLIP在性別、種族和年齡分類上的性能進行測試,發現性別分類在所有種族中的準確率>96%,其中“中東”準確率最高(98.4%),“白人”最低(96.5%);種族分類平均約93%,年齡分類約63%。
📄 反饋
若您有關於模型的問題或建議,請使用此Google表單。