🚀 vit_large_patch14_clip_336.openai模型卡片
本項目提供了一個適用於timm
和OpenCLIP
庫的CLIP模型,可用於零樣本圖像分類研究,助力研究者探索計算機視覺模型的魯棒性和泛化能力。
🚀 快速開始
此CLIP模型實例可在以下庫中加載:
timm
(https://github.com/rwightman/pytorch-image-models)
OpenCLIP
(https://github.com/mlfoundations/open_clip)
若要在Hugging Face Transformers中使用,請參閱https://huggingface.co/openai/clip-vit-large-patch14-336 。
✨ 主要特性
- 由OpenAI的研究人員開發,用於研究計算機視覺任務中的魯棒性以及模型零樣本泛化到任意圖像分類任務的能力。
- 使用ViT-L/14 (336x336) Transformer架構作為圖像編碼器,使用掩碼自注意力Transformer作為文本編碼器,並通過對比損失最大化(圖像,文本)對的相似度。
📚 詳細文檔
📦 模型詳情
模型日期
2021年1月
模型類型
屬性 |
詳情 |
模型類型 |
該模型使用ViT-L/14 (336x336) Transformer架構作為圖像編碼器,並使用掩碼自注意力Transformer作為文本編碼器。這些編碼器通過對比損失進行訓練,以最大化(圖像,文本)對的相似度。原始實現有兩個變體:一個使用ResNet圖像編碼器,另一個使用視覺Transformer。本倉庫使用的是視覺Transformer變體。 |
訓練數據 |
該模型在公開可用的圖像 - 字幕數據上進行訓練。這是通過抓取一些網站並結合使用常用的現有圖像數據集(如YFCC100M)來完成的。大部分數據來自互聯網抓取,這意味著數據更能代表與互聯網連接最緊密的人群和社會,往往傾向於更發達的國家以及年輕的男性用戶。 |
💻 模型使用
預期用途
主要預期用途
該模型主要面向AI研究人員,旨在作為研究成果供研究社區使用。希望該模型能幫助研究人員更好地理解和探索零樣本、任意圖像分類,也可用於跨學科研究此類模型的潛在影響。
超出範圍的用例
⚠️ 重要提示
- 模型的任何部署用例(無論是否商業用途)目前都超出範圍。除非對模型在特定、固定的類別分類法下進行了徹底的領域內測試,否則不建議使用非部署用例,如圖像搜索。
- 某些屬於監控和麵部識別領域的用例無論模型性能如何,始終超出範圍。
- 由於模型僅在英語上進行了訓練和評估,其使用應限於英語用例。
🔧 技術細節
侷限性
CLIP及其分析存在一些侷限性。目前,CLIP在某些任務(如細粒度分類和對象計數)上表現不佳,在公平性和偏差方面也存在問題。此外,測試CLIP的方法也有重要侷限性,因為在許多情況下使用線性探針評估CLIP性能,有證據表明線性探針可能低估模型性能。
偏差和公平性
CLIP的性能和特定偏差在很大程度上取決於類別設計以及對包含和排除類別的選擇。通過將Fairface中的人物圖像分類到與犯罪相關和非人類動物類別中,測試了CLIP的某些詆譭風險,發現了基於種族和性別的顯著差異,且這些差異會根據類別構建方式而變化。
使用Fairface數據集測試了CLIP在性別、種族和年齡分類上的性能,發現性別分類在所有種族中的準確率>96%,其中“中東”準確率最高(98.4%),“白人”最低(96.5%)。此外,CLIP的種族分類平均準確率約為93%,年齡分類約為63%。對性別、種族和年齡分類以及詆譭危害的評估僅用於評估模型在不同人群中的性能並揭示潛在風險,並非支持此類任務。
📄 許可證
本項目採用Apache-2.0許可證。