CLIP-ViT-B-16-laion2B-s34B-b88K開源多模態模型 - 免費實現零樣本圖像分類

首頁

CLIP ViT B 16 Laion2b S34b B88k

由laion開發

基於OpenCLIP框架訓練的多模態視覺語言模型，在LAION-2B英語數據集上訓練完成，支持零樣本圖像分類任務

文本生成圖像

Safetensors

開源協議:MIT #零樣本圖像分類 #多模態檢索 #英語圖文匹配

下載量 251.02k

發布時間 : 1/3/2023

模型概述

該CLIP模型採用ViT-B/16架構，通過對比學習實現圖像與文本的聯合表示，可用於零樣本圖像分類、圖文檢索等跨模態任務

模型特點

大規模訓練數據

使用LAION-5B的20億英語樣本子集訓練，涵蓋廣泛視覺概念

零樣本學習能力

無需微調即可直接應用於新類別識別任務

跨模態對齊

通過對比學習實現圖像與文本特徵的統一表示空間

模型能力

零樣本圖像分類

圖文相似度計算

跨模態檢索

圖像特徵提取

使用案例

計算機視覺

開放域圖像分類

使用自然語言描述直接分類圖像，無需預定義類別體系

ImageNet-1k上達到70.2%零樣本top-1準確率

信息檢索

圖文交叉檢索

實現文本到圖像或圖像到文本的雙向檢索

🚀 CLIP ViT-B/16 - LAION-2B模型卡片

CLIP ViT-B/16 - LAION-2B是一個經過特定訓練的模型，可用於零樣本圖像分類等研究場景，為研究人員探索圖像分類等領域提供了有力工具。

🚀 快速開始

此部分文檔主要介紹了CLIP ViT-B/16 - LAION-2B模型的詳細信息，包括模型詳情、用途、訓練細節、評估等內容，方便研究人員瞭解和使用該模型。

✨ 主要特性

研究導向：作為研究輸出，供研究社區使用，助力研究人員探索零樣本、任意圖像分類。
多用途：可用於零樣本圖像分類、圖像和文本檢索、圖像分類微調、圖像生成引導等多種任務。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

文檔未提供代碼示例，暫不展示。

📚 詳細文檔

🔍 模型詳情

模型描述

使用OpenCLIP（https://github.com/mlfoundations/open_clip），基於LAION - 5B（https://laion.ai/blog/laion - 5b/）的LAION - 2B英文子集訓練的CLIP ViT - B/16模型。模型由Mehdi Cherti在[JUWELS Booster](https://apps.fz - juelich.de/jsc/hps/juwels/booster - overview.html)超級計算機上完成訓練，具體致謝信息見下文。

📋 用途

原設計意圖

根據原始的[OpenAI CLIP模型卡片](https://github.com/openai/CLIP/blob/d50d76daa670286dd6cacf3bcd80b5e4823fc8e1/model - card.md)，該模型旨在作為研究成果供研究社區使用。期望研究人員能借此更好地理解和探索零樣本、任意圖像分類，也可用於跨學科研究此類模型的潛在影響。OpenAI CLIP論文對潛在的下游影響進行了討論，為這類分析提供了示例。此外，LAION - 5B博客（https://laion.ai/blog/laion - 5b/）及即將發表的論文也針對訓練數據集進行了額外討論。

直接用途

零樣本圖像分類、圖像和文本檢索等。

下游用途

圖像分類及其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件設定等。

非預期用途

與OpenAI模型一樣，目前模型的任何部署用例（無論是否商用）都不在預期範圍內。非部署用例（如在受限環境中的圖像搜索）也不建議使用，除非針對特定、固定的類別分類法對模型進行了全面的領域內測試。因為安全評估表明，鑑於CLIP在不同類別分類法下的性能差異較大，非常有必要針對特定任務進行測試。這使得在未經測試和不受約束的情況下將模型用於任何用例目前都可能存在危害。某些屬於監控和人臉識別領域的用例，無論模型性能如何，始終不在預期範圍內。因為目前缺乏確保公平使用的測試規範和檢查機制，將人工智能用於此類任務還為時過早。由於該模型僅在英語環境下進行訓練和評估，其使用應限於英語用例。此外，用於訓練這些模型的LAION - 5B數據集還有其他需要考慮的因素，詳見下文。

🛠️ 訓練詳情

訓練數據

該模型使用LAION - 5B的20億樣本英文子集進行訓練（https://laion.ai/blog/laion - 5b/）。

⚠️ 重要提示

創建該數據集的目的是推動大規模多模態模型訓練以及處理從公開互聯網爬取的未整理大規模數據集的研究和實驗。因此，建議將該數據集用於研究目的。需注意，這個大規模數據集未經整理，收集的鏈接可能會指向令人極度不適和不安的內容。所以，請謹慎使用演示鏈接，並自行承擔風險。可以通過基於安全標籤過濾樣本（使用我們定製訓練的NSFW分類器）來提取“安全”子集。雖然這能大大降低查看時遇到潛在有害內容的幾率，但我們不能完全排除安全模式下仍存在有害內容的可能性，因此該警告同樣適用。我們認為，向廣大研究和其他感興趣的社區公開提供該數據集，有助於透明地研究訓練大規模模型帶來的益處，以及使用封閉的、僅限小部分社區使用的大型數據集時可能未被報告或注意到的陷阱和危險。然而，我們不建議使用該數據集來創建現成的工業產品，因為關於此類大規模模型的一般特性和安全性的基礎研究仍在進行中。

訓練過程

待補充。

📊 評估

使用[LAION CLIP Benchmark suite](https://github.com/LAION - AI/CLIP_benchmark)中的代碼進行評估。

測試數據、因素和指標

測試數據

分類任務使用VTAB +（VTAB（https://arxiv.org/abs/1910.04867）與其他魯棒性數據集的組合）進行測試，檢索任務使用COCO和Flickr進行測試。

評估結果

該模型在ImageNet - 1k上的零樣本top - 1準確率達到70.2。已在更廣泛的數據集上進行了初步基準測試，目前可在https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。

🙏 致謝

感謝高斯超級計算中心（Gauss Centre for Supercomputing e.V.，http://gauss - centre.eu）通過約翰·馮·諾伊曼計算研究所（NIC）在於利希超級計算中心（JSC）的GCS超級計算機JUWELS Booster上提供計算時間，資助了這部分工作。

📑 引用

BibTeX引用

LAION - 5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP軟件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}