🚀 CLIP (適用於timm的OpenAI模型)
CLIP模型由OpenAI的研究人員開發,旨在探究計算機視覺任務中影響模型魯棒性的因素,同時測試模型以零樣本方式泛化到任意圖像分類任務的能力。該模型並非為通用部署而設計,若要部署類似CLIP的模型,研究人員需先深入研究其在具體應用場景中的性能。
🚀 快速開始
此CLIP模型實例可在以下庫中加載:
timm
(https://github.com/rwightman/pytorch-image-models)
OpenCLIP
(https://github.com/mlfoundations/open_clip)
如需在Hugging Face Transformers中使用,請參考https://huggingface.co/openai/clip-vit-base-patch16 。
✨ 主要特性
- 研究驅動:用於研究計算機視覺任務中的魯棒性和零樣本泛化能力。
- 多庫支持:可在
timm
和OpenCLIP
庫中加載。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
📚 詳細文檔
模型詳情
- 模型日期:2021年1月
- 模型類型:該模型使用ViT - B/16 Transformer架構作為圖像編碼器,使用掩碼自注意力Transformer作為文本編碼器。通過對比損失函數,訓練這些編碼器以最大化(圖像,文本)對的相似度。原始實現有兩個變體:一個使用ResNet圖像編碼器,另一個使用視覺Transformer。此倉庫中的是使用視覺Transformer的變體。
- 相關文檔:
模型使用
- 預期用途:該模型是為研究社區提供的研究成果。希望能幫助研究人員更好地理解和探索零樣本、任意圖像分類任務。也可用於跨學科研究此類模型的潛在影響,CLIP論文中包含了對潛在下游影響的討論,為這類分析提供了示例。
- 主要預期用戶:主要是AI研究人員。
- 主要預期用途:研究人員主要用該模型來更好地理解計算機視覺模型的魯棒性、泛化能力以及其他性能、偏差和限制。
- 非預期使用場景:
- 目前,模型的任何部署用例(無論是否商業用途)都不在預期範圍內。非部署用例,如在受限環境中的圖像搜索,除非對模型在特定、固定的類別分類法下進行了全面的領域內測試,否則也不建議使用。因為安全評估表明,鑑於CLIP在不同類別分類法下的性能差異,非常需要進行特定任務的測試。這使得在任何未經測試和不受約束的用例中部署該模型目前都可能有害。
- 某些屬於監控和人臉識別領域的用例,無論模型性能如何,都不在預期範圍內。因為目前缺乏確保公平使用的測試規範和檢查,使用人工智能進行此類任務可能為時過早。
- 由於該模型未針對英語以外的語言進行專門訓練和評估,其使用應限於英語用例。
數據
- 訓練數據:該模型在公開可用的圖像 - 文本對數據上進行訓練。通過抓取一些網站和使用常用的現有圖像數據集(如YFCC100M)來收集數據。大部分數據來自互聯網抓取,這意味著數據更能代表與互聯網聯繫更緊密的人群和社會,往往偏向於更發達的國家以及年輕的男性用戶。
- 數據使命聲明:構建此數據集的目標是測試計算機視覺任務中的魯棒性和泛化能力。因此,重點是從不同的公開互聯網數據源收集大量數據。數據收集大多采用非干預方式,但僅抓取了有政策禁止過度暴力和成人圖像並允許過濾此類內容的網站。不打算將此數據集用作任何商業或部署模型的基礎,也不會發布該數據集。
侷限性
- 任務侷限性:CLIP目前在某些任務上存在困難,如細粒度分類和對象計數。
- 公平性和偏差問題:CLIP在公平性和偏差方面存在問題,論文中對此進行了討論,下一節也會簡要提及。此外,測試CLIP的方法也有重要侷限性,在很多情況下使用線性探針來評估CLIP的性能,有證據表明線性探針可能低估模型性能。
- 偏差和公平性:發現CLIP的性能及其表現出的特定偏差可能在很大程度上取決於類別設計以及對包含和排除類別的選擇。通過將Fairface中的人物圖像分類到與犯罪相關和非人類動物類別中,測試了CLIP存在的某些詆譭風險。發現種族和性別方面存在顯著差異,並且這些差異可能會根據類別構建方式而變化(詳細內容見論文的更廣泛影響部分)。
- 使用Fairface數據集測試了CLIP在性別、種族和年齡分類上的性能(默認使用Fairface數據集中構建的種族類別),以評估其在不同人群中的性能質量。發現性別分類在所有種族中的準確率 > 96%,其中“中東人”的準確率最高(98.4%),“白人”的準確率最低(96.5%)。此外,CLIP的種族分類平均準確率約為93%,年齡分類平均準確率約為63%。使用評估來測試性別、種族和年齡分類以及詆譭危害,只是為了評估模型在不同人群中的性能並揭示潛在風險,而不是為了表明對這些任務的認可或熱衷。
📄 許可證
本項目採用Apache - 2.0許可證。