vit_base_patch16_clip_224.openai開源模型 - 支持零樣本圖像分類的視覺語言利器

首頁

Vit Base Patch16 Clip 224.openai

由timm開發

CLIP是由OpenAI開發的視覺-語言模型，通過對比學習訓練圖像和文本編碼器，支持零樣本圖像分類。

文本生成圖像

Transformers

開源協議:Apache-2.0 #零樣本圖像分類 #多模態對比學習 #視覺-文本對齊

下載量 618.17k

發布時間 : 11/1/2022

模型概述

CLIP模型探索計算機視覺任務的魯棒性因素，並測試模型以零樣本方式泛化到任意圖像分類任務的能力。

模型特點

零樣本泛化能力

無需特定任務微調即可執行多種圖像分類任務

多模態對比學習

通過對比損失聯合訓練圖像和文本編碼器

變換器架構

採用ViT-B/16視覺變換器和文本變換器編碼器

模型能力

零樣本圖像分類

圖像-文本相似度計算

跨模態特徵提取

使用案例

學術研究

計算機視覺魯棒性研究

探索模型在不同分佈數據上的表現

論文中展示了跨數據集泛化能力

多模態學習研究

研究視覺與語言表徵的聯合學習

證明了對比學習的有效性

🚀 CLIP (適用於timm的OpenAI模型)

CLIP模型由OpenAI的研究人員開發，旨在探究計算機視覺任務中影響模型魯棒性的因素，同時測試模型以零樣本方式泛化到任意圖像分類任務的能力。該模型並非為通用部署而設計，若要部署類似CLIP的模型，研究人員需先深入研究其在具體應用場景中的性能。

🚀 快速開始

此CLIP模型實例可在以下庫中加載：

timm (https://github.com/rwightman/pytorch-image-models)
OpenCLIP (https://github.com/mlfoundations/open_clip)

如需在Hugging Face Transformers中使用，請參考https://huggingface.co/openai/clip-vit-base-patch16 。

✨ 主要特性

研究驅動：用於研究計算機視覺任務中的魯棒性和零樣本泛化能力。
多庫支持：可在timm和OpenCLIP庫中加載。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

📚 詳細文檔

模型詳情

模型日期：2021年1月
模型類型：該模型使用ViT - B/16 Transformer架構作為圖像編碼器，使用掩碼自注意力Transformer作為文本編碼器。通過對比損失函數，訓練這些編碼器以最大化（圖像，文本）對的相似度。原始實現有兩個變體：一個使用ResNet圖像編碼器，另一個使用視覺Transformer。此倉庫中的是使用視覺Transformer的變體。
相關文檔：
- 博客文章
- CLIP論文

模型使用

預期用途：該模型是為研究社區提供的研究成果。希望能幫助研究人員更好地理解和探索零樣本、任意圖像分類任務。也可用於跨學科研究此類模型的潛在影響，CLIP論文中包含了對潛在下游影響的討論，為這類分析提供了示例。
- 主要預期用戶：主要是AI研究人員。
- 主要預期用途：研究人員主要用該模型來更好地理解計算機視覺模型的魯棒性、泛化能力以及其他性能、偏差和限制。
非預期使用場景：
- 目前，模型的任何部署用例（無論是否商業用途）都不在預期範圍內。非部署用例，如在受限環境中的圖像搜索，除非對模型在特定、固定的類別分類法下進行了全面的領域內測試，否則也不建議使用。因為安全評估表明，鑑於CLIP在不同類別分類法下的性能差異，非常需要進行特定任務的測試。這使得在任何未經測試和不受約束的用例中部署該模型目前都可能有害。
- 某些屬於監控和人臉識別領域的用例，無論模型性能如何，都不在預期範圍內。因為目前缺乏確保公平使用的測試規範和檢查，使用人工智能進行此類任務可能為時過早。
- 由於該模型未針對英語以外的語言進行專門訓練和評估，其使用應限於英語用例。

數據

訓練數據：該模型在公開可用的圖像 - 文本對數據上進行訓練。通過抓取一些網站和使用常用的現有圖像數據集（如YFCC100M）來收集數據。大部分數據來自互聯網抓取，這意味著數據更能代表與互聯網聯繫更緊密的人群和社會，往往偏向於更發達的國家以及年輕的男性用戶。
數據使命聲明：構建此數據集的目標是測試計算機視覺任務中的魯棒性和泛化能力。因此，重點是從不同的公開互聯網數據源收集大量數據。數據收集大多采用非干預方式，但僅抓取了有政策禁止過度暴力和成人圖像並允許過濾此類內容的網站。不打算將此數據集用作任何商業或部署模型的基礎，也不會發布該數據集。

侷限性

任務侷限性：CLIP目前在某些任務上存在困難，如細粒度分類和對象計數。
公平性和偏差問題：CLIP在公平性和偏差方面存在問題，論文中對此進行了討論，下一節也會簡要提及。此外，測試CLIP的方法也有重要侷限性，在很多情況下使用線性探針來評估CLIP的性能，有證據表明線性探針可能低估模型性能。
偏差和公平性：發現CLIP的性能及其表現出的特定偏差可能在很大程度上取決於類別設計以及對包含和排除類別的選擇。通過將Fairface中的人物圖像分類到與犯罪相關和非人類動物類別中，測試了CLIP存在的某些詆譭風險。發現種族和性別方面存在顯著差異，並且這些差異可能會根據類別構建方式而變化（詳細內容見論文的更廣泛影響部分）。
- 使用Fairface數據集測試了CLIP在性別、種族和年齡分類上的性能（默認使用Fairface數據集中構建的種族類別），以評估其在不同人群中的性能質量。發現性別分類在所有種族中的準確率 > 96%，其中“中東人”的準確率最高（98.4%），“白人”的準確率最低（96.5%）。此外，CLIP的種族分類平均準確率約為93%，年齡分類平均準確率約為63%。使用評估來測試性別、種族和年齡分類以及詆譭危害，只是為了評估模型在不同人群中的性能並揭示潛在風險，而不是為了表明對這些任務的認可或熱衷。