CLIP-ViT-bigG-14開源視覺-語言模型 - 免費部署實現零樣本圖像分類與跨模態檢索

首頁

CLIP ViT Bigg 14 Laion2b 39B B160k

由laion開發

基於OpenCLIP框架在LAION-2B數據集上訓練的視覺-語言模型，支持零樣本圖像分類和跨模態檢索

文本生成圖像

Safetensors

開源協議:MIT #零樣本圖像分類 #多模態檢索 #大規模預訓練

下載量 565.80k

發布時間 : 1/23/2023

模型概述

這是一個基於ViT-bigG/14架構的CLIP模型，使用OpenCLIP框架在LAION-5B的20億英語子集上訓練。模型能夠理解圖像和文本之間的語義關係，支持零樣本圖像分類和跨模態檢索任務。

模型特點

零樣本學習能力

無需特定任務微調即可執行新類別的圖像分類任務

跨模態理解

能夠同時理解圖像和文本的語義關係

大規模訓練

在20億規模的LAION-2B英語數據集上訓練

高性能

在ImageNet-1k上達到80.1%的零樣本top-1準確率

模型能力

零樣本圖像分類

圖像文本檢索

跨模態語義理解

圖像特徵提取

使用案例

圖像理解

零樣本圖像分類

無需訓練即可對新類別圖像進行分類

在ImageNet-1k上達到80.1%準確率

圖像檢索

根據文本描述檢索相關圖像

研究應用

多模態研究

用於視覺-語言聯合表示學習的研究

模型微調基礎

作為下游任務的預訓練模型

🚀 CLIP ViT-bigG/14 - LAION-2B模型卡片

本模型是一個CLIP ViT - bigG/14模型，旨在助力研究人員更好地理解和探索零樣本、任意圖像分類，也可用於跨學科研究該類模型的潛在影響。

🚀 快速開始

使用以下代碼開始使用該模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

研究導向：作為研究成果，供研究社區使用，助力零樣本、任意圖像分類研究。
多用途：可用於零樣本圖像分類、圖像和文本檢索等直接任務，也能用於圖像分類微調、圖像生成引導等下游任務。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

文檔未提供代碼示例，暫不展示。

📚 詳細文檔

模型詳情

模型描述

這是一個CLIP ViT - bigG/14模型，使用OpenCLIP（https://github.com/mlfoundations/open_clip）在LAION - 5B（https://laion.ai/blog/laion - 5b/）的LAION - 2B英文子集上進行訓練。模型由Mitchell Wortsman在stability.ai集群上完成訓練，許可證為MIT。

用途

直接使用：零樣本圖像分類、圖像和文本檢索等。
下游使用：圖像分類和其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件設定等。
超出適用範圍的使用：目前，模型的任何部署用例（無論是否商業用途）都超出適用範圍。非部署用例（如在受限環境中的圖像搜索）也不推薦，除非對模型進行特定、固定類別分類法的全面領域內測試。此外，涉及監控和人臉識別領域的用例始終超出適用範圍。由於模型僅在英語上進行訓練和評估，其使用應限於英語用例。

訓練詳情

訓練數據

該模型使用LAION - 5B的20億樣本英文子集進行訓練，也在LAION - A（LAION - 2B的9億子集，經過美學V2 4.5+過濾和phash去重）上進行了部分微調。

⚠️ 重要提示

數據集創建的目的是推動大規模多模態模型訓練和處理未整理的大規模公共互聯網數據集的研究和實驗。建議僅將數據集用於研究目的。該大規模數據集未經過整理，收集的鏈接可能包含令人不適和不安的內容。雖然可以通過安全標籤過濾出“安全”子集，但仍不能完全排除有害內容的存在。不建議使用該數據集創建工業產品，因為關於此類大規模模型的基本屬性和安全性的基礎研究仍在進行中。

訓練過程

訓練過程將很快在laion.ai的博客文章中討論。

評估

評估使用[LAION CLIP Benchmark套件](https://github.com/LAION - AI/CLIP_benchmark)中的代碼進行。

測試數據、因素和指標

測試數據：分類任務使用VTAB +（VTAB（https://arxiv.org/abs/1910.04867）與其他魯棒性數據集的組合），檢索任務使用COCO和Flickr。

結果

該模型在ImageNet - 1k上實現了80.1的零樣本top - 1準確率。

致謝

感謝stability.ai提供訓練該模型的計算資源。

引用

BibTeX： LAION - 5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP軟件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

擴展OpenCLIP論文

@article{cherti2022reproducible,
  title={Reproducible scaling laws for contrastive language-image learning},
  author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia},
  journal={arXiv preprint arXiv:2212.07143},
  year={2022}
}