CLIP-ViT-H-14-laion2B-s32B-b79K開源模型 - 支持零樣本圖像分類和跨模態檢索

首頁

CLIP ViT H 14 Laion2b S32b B79k

由ModelsLab開發

這是一個基於OpenCLIP框架、在LAION-2B英語子集上訓練的視覺語言模型，擅長零樣本圖像分類和跨模態檢索任務。

文本生成圖像

Safetensors

開源協議:MIT #零樣本圖像分類 #多模態檢索 #大規模預訓練

下載量 132

發布時間 : 1/16/2025

模型概述

該模型採用CLIP架構，通過對比學習將圖像和文本映射到共享的嵌入空間，支持零樣本圖像分類、圖像文本檢索等任務。

模型特點

大規模訓練數據

使用LAION-5B的20億英語樣本子集訓練，涵蓋廣泛的視覺概念

零樣本能力

無需微調即可執行新類別的圖像分類任務

跨模態理解

同時理解圖像和文本，支持圖像-文本匹配和檢索

模型能力

零樣本圖像分類

圖像文本檢索

跨模態嵌入學習

圖像內容理解

使用案例

計算機視覺

零樣本圖像分類

無需訓練數據即可對圖像進行分類

在ImageNet-1k上達到78.0%的零樣本top-1準確率

圖像檢索

根據文本查詢檢索相關圖像

在COCO和Flickr數據集上表現良好

研究應用

多模態研究

用於研究視覺語言表示學習

模型微調基礎

作為下游任務的預訓練模型

🚀 CLIP ViT-H/14 - LAION-2B 模型卡片

CLIP ViT-H/14 - LAION-2B 模型是使用 OpenCLIP 在 LAION-5B 的英語子集 LAION-2B 上訓練得到的。該模型可用於零樣本圖像分類、圖像和文本檢索等任務，為研究人員提供了探索零樣本圖像分類的工具。

🚀 快速開始

使用以下代碼開始使用該模型：

# TODO - Hugging Face transformers, OpenCLIP, and timm getting started snippets

✨ 主要特性

研究導向：作為研究成果，旨在幫助研究人員理解和探索零樣本、任意圖像分類。
多用途：可用於零樣本圖像分類、圖像和文本檢索、圖像分類微調、圖像生成引導等多種任務。

📦 安裝指南

暫未提供安裝步驟，可參考相關庫（如 open_clip）的官方文檔進行安裝。

💻 使用示例

基礎用法

# 此處應補充基礎使用代碼示例

高級用法

# 此處應補充高級使用代碼示例

📚 詳細文檔

模型詳情

模型描述：一個 CLIP ViT-H/14 模型，使用 OpenCLIP 在 LAION-5B 的英語子集 LAION-2B（https://laion.ai/blog/laion-5b/）上進行訓練。模型由 Romain Beaumont 在 stability.ai 集群上完成訓練。
使用場景
- 直接使用：零樣本圖像分類、圖像和文本檢索等。
- 下游使用：圖像分類和其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件等。
- 超出範圍的使用：目前任何模型的部署用例（無論是否商業用途）都超出範圍。未部署的用例如在受限環境中的圖像搜索，除非對模型進行特定、固定類別的徹底領域內測試，否則也不推薦。此外，涉及監控和人臉識別的用例始終超出範圍。由於模型僅在英語上訓練和評估，其使用應限於英語用例。

訓練詳情

訓練數據：使用 LAION-5B 的 20 億樣本英語子集進行訓練。該數據集未經過精心篩選，收集的鏈接可能包含令人不適的內容。可通過安全標籤過濾出“安全”子集，但不能完全排除有害內容。不建議使用該數據集創建工業產品，目前相關基礎研究仍在進行中。
訓練過程：請參考訓練筆記和 wandb 日誌。

評估

評估方式：使用 LAION CLIP 基準套件中的代碼進行評估。
測試數據、因素和指標
- 測試數據：分類任務使用 VTAB+（VTAB 與額外魯棒性數據集的組合），檢索任務使用 COCO 和 Flickr。
- 結果：該模型在 ImageNet-1k 上實現了 78.0 的零樣本 top-1 準確率。更廣泛數據集的初始基準測試結果可在 https://github.com/LAION-AI/CLIP_benchmark/blob/main/benchmark/results.ipynb 查看。

🔧 技術細節

模型類型：CLIP ViT-H/14
訓練數據：LAION-5B 的英語子集 LAION-2B | 屬性 | 詳情 | |------|------| | 模型類型 | CLIP ViT-H/14 | | 訓練數據 | LAION-5B 的英語子集 LAION-2B |

📄 許可證

本模型採用 MIT 許可證。

致謝

感謝 stability.ai 提供訓練該模型的計算資源。

引用

LAION-5B

@inproceedings{schuhmann2022laionb,
  title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
  author={Christoph Schuhmann and
          Romain Beaumont and
          Richard Vencu and
          Cade W Gordon and
          Ross Wightman and
          Mehdi Cherti and
          Theo Coombes and
          Aarush Katta and
          Clayton Mullis and
          Mitchell Wortsman and
          Patrick Schramowski and
          Srivatsa R Kundurthy and
          Katherine Crowson and
          Ludwig Schmidt and
          Robert Kaczmarczyk and
          Jenia Jitsev},
  booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
  year={2022},
  url={https://openreview.net/forum?id=M3Y74vmsMcY}
}

OpenAI CLIP 論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}

OpenCLIP 軟件

@software{ilharco_gabriel_2021_5143773,
  author       = {Ilharco, Gabriel and
                  Wortsman, Mitchell and
                  Wightman, Ross and
                  Gordon, Cade and
                  Carlini, Nicholas and
                  Taori, Rohan and
                  Dave, Achal and
                  Shankar, Vaishaal and
                  Namkoong, Hongseok and
                  Miller, John and
                  Hajishirzi, Hannaneh and
                  Farhadi, Ali and
                  Schmidt, Ludwig},
  title        = {OpenCLIP},
  month        = jul,
  year         = 2021,
  note         = {If you use this software, please cite it as below.},
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5143773},
  url          = {https://doi.org/10.5281/zenodo.5143773}
}

⚠️ 重要提示

數據集風險：訓練使用的 LAION-5B 數據集未經過精心篩選，包含的鏈接可能指向令人不適的內容。使用演示鏈接時請謹慎並自行承擔風險。
使用範圍：目前模型的任何部署用例（無論是否商業用途）都超出範圍。未部署的用例如在受限環境中的圖像搜索，需進行特定、固定類別的徹底領域內測試。涉及監控和人臉識別的用例始終超出範圍。由於模型僅在英語上訓練和評估，其使用應限於英語用例。