CLIP-ViT-H-14-laion2B-s32B-b79K開源視覺-語言模型，支持圖像分類和跨模態檢索

首頁

CLIP ViT H 14 Laion2b S32b B79k

由laion開發

基於OpenCLIP框架在LAION-2B英文數據集上訓練的視覺-語言模型，支持零樣本圖像分類和跨模態檢索任務

文本生成圖像

Safetensors

開源協議:MIT #零樣本圖像分類 #多模態檢索 #大規模預訓練

下載量 1.8M

發布時間 : 9/14/2022

模型概述

這是一個使用ViT-H/14架構的CLIP模型，專門在LAION-5B的20億英文子集上訓練。模型能夠理解圖像和文本之間的關聯，實現零樣本圖像分類和跨模態檢索。

模型特點

大規模預訓練

在LAION-2B大規模多模態數據集上訓練，具有強大的泛化能力

零樣本能力

無需微調即可執行新類別的圖像分類任務

跨模態理解

能夠同時處理視覺和文本信息，實現圖像與文本的關聯

模型能力

零樣本圖像分類

圖像文本檢索

跨模態特徵提取

圖像分類微調

使用案例

內容檢索

圖像搜索引擎

使用自然語言查詢檢索相關圖像

智能分類

動態圖像分類

無需預先訓練即可對新類別進行分類

在ImageNet-1k上達到78.0%的零樣本top-1準確率

輔助創作

圖像生成引導

為生成模型提供文本條件化指導

🚀 CLIP ViT-H/14 - LAION-2B模型卡

本模型基於LAION-2B英文子集訓練，能夠助力研究人員開展零樣本、任意圖像分類研究，還可用於圖像與文本檢索等任務。

🚀 快速開始

使用以下代碼開始使用該模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

研究導向：作為研究成果，供研究社區使用，助力研究人員理解和探索零樣本、任意圖像分類。
多用途：可用於零樣本圖像分類、圖像和文本檢索等直接任務，也能用於圖像分類微調、圖像生成引導等下游任務。

📚 詳細文檔

🔍 模型詳情

模型描述

這是一個CLIP ViT-H/14模型，使用OpenCLIP（https://github.com/mlfoundations/open_clip）在LAION-5B的LAION-2B英文子集（https://laion.ai/blog/laion-5b/）上進行訓練。模型由Romain Beaumont在stability.ai集群上完成訓練。

💡 使用說明

用途範圍

直接使用：零樣本圖像分類、圖像和文本檢索等。
下游使用：圖像分類和其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件設定等。
超出範圍使用：目前，模型的任何部署用例（無論是否商業用途）都超出範圍。非部署用例（如在受限環境中的圖像搜索）也不建議，除非對模型進行特定、固定類別的全面領域測試。此外，涉及監控和人臉識別的用例始終超出範圍。由於模型僅在英語上訓練和評估，其使用應限於英語用例。

⚙️ 訓練詳情

訓練數據

模型使用LAION-5B的20億樣本英文子集（https://laion.ai/blog/laion-5b/）進行訓練。該數據集未經過精心策劃，收集的鏈接可能包含令人不適的內容。可通過安全標籤過濾出“安全”子集，但不能完全排除有害內容。不建議將其用於創建工業產品。

訓練過程

請參閱訓練筆記和wandb日誌。

📊 評估

評估使用LAION CLIP基準套件中的代碼進行。

測試數據、因素和指標

測試數據：分類任務使用VTAB+（VTAB（https://arxiv.org/abs/1910.04867）與額外魯棒性數據集的組合），檢索任務使用COCO和Flickr。

結果

模型在ImageNet-1k上實現了78.0的零樣本top-1準確率。初始基準測試已在更廣泛的數據集上進行，結果可在https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。

🙏 致謝

感謝stability.ai提供訓練模型的計算資源。

📑 引用

BibTeX：

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}