CLIP-ViT-B-32-laion2B-s34B-b79K開源視覺-語言模型，實現零樣本圖像分類和跨模態檢索

首頁

CLIP ViT B 32 Laion2b S34b B79k

由laion開發

基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺-語言模型，支持零樣本圖像分類和跨模態檢索

文本生成圖像

Safetensors

開源協議:MIT #零樣本圖像分類 #多模態檢索 #英語文本適配

下載量 1.1M

發布時間 : 9/14/2022

模型概述

該模型是CLIP架構的變體，使用ViT-B/32視覺編碼器，在LAION-5B的20億英語樣本子集上訓練。主要用於研究社區探索零樣本圖像分類和跨模態理解任務。

模型特點

零樣本學習能力

無需特定任務微調即可執行圖像分類任務

跨模態理解

能夠同時處理視覺和文本信息，實現圖像與文本的關聯

大規模訓練數據

使用LAION-2B數據集訓練，包含20億英語圖文對

模型能力

零樣本圖像分類

圖像-文本匹配

跨模態檢索

圖像特徵提取

使用案例

研究應用

零樣本圖像分類研究

探索模型在未見類別上的分類能力

在ImageNet-1k上達到66.6%的零樣本top-1準確率

跨模態理解研究

研究視覺與語言模態間的關聯機制

潛在應用

圖像檢索系統

基於文本描述檢索相關圖像

內容審核輔助

識別圖像中的特定內容

🚀 CLIP ViT - B/32 - LAION - 2B 模型卡

本模型基於 LAION - 2B 英文子集進行訓練，旨在助力研究人員開展零樣本、任意圖像分類研究，可用於圖像分類、檢索等多種任務。

🚀 快速開始

使用以下代碼開始使用該模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

基於 CLIP ViT - B/32 架構，使用 LAION - 2B 英文子集訓練。
可用於零樣本圖像分類、圖像和文本檢索等多種任務。
為研究社區提供研究輸出，助力探索零樣本圖像分類。

📦 安裝指南

文檔未提及具體安裝步驟，暫不展示。

💻 使用示例

文檔未提供代碼示例，暫不展示。

📚 詳細文檔

模型詳情

模型描述

這是一個 CLIP ViT - B/32 模型，使用 OpenCLIP（https://github.com/mlfoundations/open_clip），基於 LAION - 5B 的 20 億樣本英文子集（https://laion.ai/blog/laion - 5b/）進行訓練。模型由 Romain Beaumont 在 stability.ai 集群上完成訓練。

用途

直接用途：零樣本圖像分類、圖像和文本檢索等。
下游用途：圖像分類及其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件設定等。
非適用用途：
- 目前，模型的任何部署用例（無論是否商業用途）都超出範圍。非部署用例，如在受限環境中的圖像搜索，除非對模型進行特定、固定類別分類法的全面領域測試，否則也不建議使用。因為安全評估表明，鑑於 CLIP 在不同類別分類法下性能的可變性，非常需要進行特定任務測試。這使得未經測試和無約束的模型部署在任何用例中目前都可能有害。
- 某些屬於監控和人臉識別領域的用例，無論模型性能如何，始終不在適用範圍內。因為目前缺乏確保公平使用的測試規範和檢查，使用人工智能進行此類任務可能還為時過早。
- 由於模型僅在英語環境下進行訓練和評估，其使用應限於英語用例。

訓練詳情

訓練數據

該模型使用 LAION - 5B 的 20 億樣本英文子集（https://laion.ai/blog/laion - 5b/）進行訓練。

⚠️ 重要提示

數據集創建的動機是推動大規模多模態模型訓練和處理從公開互聯網爬取的未整理大規模數據集的研究和實驗。因此建議將數據集用於研究目的。請注意，這個大規模數據集未經過整理，收集的鏈接可能會指向讓人類觀看者極度不適和不安的內容。因此，請謹慎使用演示鏈接，並自擔風險。可以通過基於安全標籤過濾樣本（使用我們構建的自定義訓練的 NSFW 分類器）提取“安全”子集。雖然這大大降低了查看時遇到潛在有害內容的可能性，但我們不能完全排除安全模式下仍存在有害內容的可能性，因此警告仍然適用。我們認為，向廣泛的研究和其他感興趣的社區公開提供數據集，將有助於透明地研究訓練大規模模型帶來的好處，以及在使用僅限於小社區的封閉大型數據集時可能未報告或未注意到的陷阱和危險。然而，我們不建議使用該數據集創建現成的工業產品，因為關於此類大規模模型的一般屬性和安全性的基礎研究仍在進行中。

訓練過程

請參閱訓練筆記和 [wandb 日誌](https://wandb.ai/rom1504/eval_openclip/reports/B - 32 - 2B --VmlldzoyNDkwNDMy)。

評估

使用 [LAION CLIP 基準套件](https://github.com/LAION - AI/CLIP_benchmark) 中的代碼進行評估。

測試數據、因素和指標

測試數據：分類任務使用 VTAB +（VTAB（https://arxiv.org/abs/1910.04867）與額外魯棒性數據集的組合），檢索任務使用 COCO 和 Flickr。
結果：該模型在 ImageNet - 1k 上實現了 66.6 的零樣本 top - 1 準確率。初步的一輪基準測試已在更廣泛的數據集上進行，目前可在 https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。

致謝

感謝 stability.ai 提供訓練該模型的計算資源。

引用

除了即將發佈的 LAION - 5B（https://laion.ai/blog/laion - 5b/）論文外，請引用以下內容：

OpenAI CLIP 論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP 軟件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}