CLIP-ViT-g-14-laion2B-s34B-b88K開源模型 - 免費用於零樣本圖像分類與圖文檢索

首頁

CLIP ViT G 14 Laion2b S34b B88k

由laion開發

基於LAION-2B數據集訓練的CLIP ViT-g/14模型，支持零樣本圖像分類和圖文檢索任務

文本生成圖像

Safetensors

開源協議:MIT #零樣本圖像分類 #大規模圖文預訓練 #多模態對比學習

下載量 76.65k

發布時間 : 3/6/2023

模型概述

這是一個基於LAION-5B英語子集LAION-2B訓練的CLIP ViT-g/14模型，使用OpenCLIP框架實現，主要用於零樣本圖像分類和圖文檢索等任務。

模型特點

大規模訓練

使用LAION-2B數據集(20億樣本)進行訓練，具有強大的泛化能力

零樣本學習

無需特定任務微調即可執行圖像分類和檢索任務

高性能

在ImageNet-1k上達到78.4%的零樣本top-1準確率

模型能力

零樣本圖像分類

圖文檢索

圖像特徵提取

文本特徵提取

使用案例

計算機視覺

圖像分類

無需訓練即可對圖像進行分類

在ImageNet-1k上達到78.4%準確率

圖像搜索

基於文本描述搜索相關圖像

研究

多模態學習研究

用於研究視覺-語言聯合表示學習

🚀 CLIP-ViT-g-14-laion2B-s34B-b88K模型卡片

CLIP-ViT-g-14-laion2B-s34B-b88K是一個用於零樣本圖像分類的模型，它基於OpenCLIP框架，在大規模數據集上進行訓練，為圖像分類和檢索等任務提供了強大的支持。

🚀 快速開始

使用以下代碼開始使用該模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

多用途：可用於零樣本圖像分類、圖像和文本檢索等直接任務，也可用於圖像分類微調、線性探針圖像分類、圖像生成引導和條件設置等下游任務。
研究導向：作為研究輸出，旨在幫助研究人員更好地理解和探索零樣本、任意圖像分類，以及進行跨學科研究。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

💻 使用示例

文檔未提供代碼示例，暫不展示。

📚 詳細文檔

🔍 模型詳情

模型描述

這是一個CLIP ViT-g/14模型，使用OpenCLIP（https://github.com/mlfoundations/open_clip）在LAION-5B的LAION-2B英文子集（https://laion.ai/blog/laion-5b/, https://openreview.net/forum?id=M3Y74vmsMcY）上進行訓練。模型訓練由Jenia Jitsev在JUWELS Booster（位於Juelich Supercomputing Center）和stability.ai的AWS HPC集群上完成。訓練是在可重現的縮放定律研究框架內進行的，相關研究成果已作為研究論文發表於CVPR 2023。另見研究倉庫。

🛠️ 用途

預期用途

根據原始的OpenAI CLIP模型卡片，該模型是為研究社區提供的研究成果。希望該模型能幫助研究人員更好地理解和探索零樣本、任意圖像分類，也可用於跨學科研究此類模型的潛在影響。 OpenAI CLIP論文討論了潛在的下游影響，為這種分析提供了示例。此外，LAION-5B博客（https://laion.ai/blog/laion-5b/）和LAION-5B NeurIPS論文也針對訓練數據集進行了額外討論。

直接用途

零樣本圖像分類、圖像和文本檢索等。

下游用途

圖像分類和其他圖像任務的微調、線性探針圖像分類、圖像生成引導和條件設置等。

超出適用範圍的用途

與OpenAI模型一樣，目前該模型的任何部署用例（無論是否商業用途）都超出了適用範圍。非部署用例，如在受限環境中的圖像搜索，除非對模型進行了特定、固定類別分類法的全面領域內測試，否則也不建議使用。這是因為安全評估表明，特別是考慮到CLIP在不同類別分類法下的性能差異，該模型非常需要進行特定任務的測試。這使得在任何用例中未經測試和不受約束地部署該模型目前都可能有害。某些屬於監控和人臉識別領域的用例，無論模型性能如何，始終不在適用範圍內。這是因為目前缺乏確保公平使用的測試規範和檢查，使用人工智能進行此類任務可能還為時過早。由於該模型僅在英語上進行了訓練和評估，其使用應限於英語用例。此外，用於訓練這些模型的LAION-5B數據集還有其他需要考慮的因素，詳見下文。

📈 訓練詳情

訓練數據

該模型使用LAION-5B的20億樣本英文子集（https://laion.ai/blog/laion-5b/）進行訓練。

⚠️ 重要提示

數據集創建的動機是推動大規模多模態模型訓練和處理從公共互聯網爬取的未整理大規模數據集的研究和實驗。因此，建議將該數據集用於研究目的。請注意，這個大規模數據集是未整理的。要知道，數據集的未整理性質意味著收集的鏈接可能會指向讓人類觀看者極度不適和不安的內容。因此，請謹慎使用演示鏈接，並自行承擔風險。可以通過根據安全標籤過濾樣本（使用我們構建的自定義訓練的NSFW分類器）來提取一個“安全”子集。雖然這大大降低了在查看時遇到潛在有害內容的可能性，但我們不能完全排除安全模式下仍存在有害內容的可能性，因此該警告同樣適用。我們認為，向廣泛的研究和其他感興趣的社區公開提供該數據集，將有助於透明地研究訓練大規模模型帶來的好處，以及在使用僅限於小社區的封閉大型數據集時可能未被報告或注意到的陷阱和危險。然而，我們不建議使用該數據集來創建現成的工業產品，因為關於此類大規模模型的一般特性和安全性的基礎研究仍在進行中，我們希望通過此次發佈來推動這方面的研究。

訓練過程

OpenCLIP ViT-g/14模型在laion2b-en（LAION-5B的一部分）數據集的345億樣本（1.35億 * 256個檢查點）上進行訓練。預熱步數 = 13500，學習率 = 1e-3，採用餘弦退火調度，權重衰減 = 0.2。全局批量大小 = 88800，GPU數量 = 1480，本地批量大小 = 60。

🧪 評估

使用LAION CLIP Benchmark套件中的代碼進行評估。

測試數據、因素和指標

測試數據

分類任務使用VTAB+（VTAB（https://arxiv.org/abs/1910.04867）與額外魯棒性數據集的組合）進行測試，檢索任務使用COCO和Flickr進行測試。 TODO - 更多細節

結果

該模型在ImageNet-1k上實現了78.4的零樣本top-1準確率。已在更廣泛的數據集上進行了初步基準測試，目前可在https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。 TODO - 為該模型的指標創建表格。

🙏 致謝

感謝Gauss Centre for Supercomputing e.V.（www.gauss-centre.eu）通過John von Neumann Institute for Computing（NIC）在Jülich Supercomputing Centre（JSC）的GCS超級計算機JUWELS Booster上提供計算時間來資助這項工作。也感謝JSC授予和運營的JUST存儲資源，以及Helmholtz Data Federation（HDF）提供的計算資源。此外，感謝stability.ai提供額外的計算資源用於訓練該模型。

📑 引用

請按以下方式引用：

LAION-5B論文

@inproceedings{Schuhmann2022,
title={{LAION}-5{B}: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and Romain Beaumont and Richard Vencu and Cade W Gordon and Ross Wightman and Mehdi Cherti and Theo Coombes and Aarush Katta and Clayton Mullis and Mitchell Wortsman and Patrick Schramowski and Srivatsa R Kundurthy and Katherine Crowson and Ludwig Schmidt and Robert Kaczmarczyk and Jenia Jitsev},
booktitle={Thirty-sixth Conference on Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2022},
volume={35},
pages={25278--25294},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenCLIP可重現縮放定律論文

@inproceedings{Cherti2023,
  title={Reproducible scaling laws for contrastive language-image learning},
  author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={2818--2829},
  year={2023}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP軟件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}