模型概述
模型特點
模型能力
使用案例
🚀 CLIP ViT-B/16 - LAION-2B模型卡片
CLIP ViT-B/16 - LAION-2B是一個經過特定訓練的模型,可用於零樣本圖像分類等研究場景,為研究人員探索圖像分類等領域提供了有力工具。
🚀 快速開始
此部分文檔主要介紹了CLIP ViT-B/16 - LAION-2B模型的詳細信息,包括模型詳情、用途、訓練細節、評估等內容,方便研究人員瞭解和使用該模型。
✨ 主要特性
- 研究導向:作為研究輸出,供研究社區使用,助力研究人員探索零樣本、任意圖像分類。
- 多用途:可用於零樣本圖像分類、圖像和文本檢索、圖像分類微調、圖像生成引導等多種任務。
📦 安裝指南
文檔未提及安裝步驟,暫不展示。
💻 使用示例
文檔未提供代碼示例,暫不展示。
📚 詳細文檔
🔍 模型詳情
模型描述
使用OpenCLIP(https://github.com/mlfoundations/open_clip),基於LAION - 5B(https://laion.ai/blog/laion - 5b/)的LAION - 2B英文子集訓練的CLIP ViT - B/16模型。模型由Mehdi Cherti在[JUWELS Booster](https://apps.fz - juelich.de/jsc/hps/juwels/booster - overview.html)超級計算機上完成訓練,具體致謝信息見下文。
📋 用途
原設計意圖
根據原始的[OpenAI CLIP模型卡片](https://github.com/openai/CLIP/blob/d50d76daa670286dd6cacf3bcd80b5e4823fc8e1/model - card.md),該模型旨在作為研究成果供研究社區使用。期望研究人員能借此更好地理解和探索零樣本、任意圖像分類,也可用於跨學科研究此類模型的潛在影響。OpenAI CLIP論文對潛在的下游影響進行了討論,為這類分析提供了示例。此外,LAION - 5B博客(https://laion.ai/blog/laion - 5b/)及即將發表的論文也針對訓練數據集進行了額外討論。
直接用途
零樣本圖像分類、圖像和文本檢索等。
下游用途
圖像分類及其他圖像任務微調、線性探針圖像分類、圖像生成引導和條件設定等。
非預期用途
與OpenAI模型一樣,目前模型的任何部署用例(無論是否商用)都不在預期範圍內。非部署用例(如在受限環境中的圖像搜索)也不建議使用,除非針對特定、固定的類別分類法對模型進行了全面的領域內測試。因為安全評估表明,鑑於CLIP在不同類別分類法下的性能差異較大,非常有必要針對特定任務進行測試。這使得在未經測試和不受約束的情況下將模型用於任何用例目前都可能存在危害。某些屬於監控和人臉識別領域的用例,無論模型性能如何,始終不在預期範圍內。因為目前缺乏確保公平使用的測試規範和檢查機制,將人工智能用於此類任務還為時過早。由於該模型僅在英語環境下進行訓練和評估,其使用應限於英語用例。此外,用於訓練這些模型的LAION - 5B數據集還有其他需要考慮的因素,詳見下文。
🛠️ 訓練詳情
訓練數據
該模型使用LAION - 5B的20億樣本英文子集進行訓練(https://laion.ai/blog/laion - 5b/)。
⚠️ 重要提示
創建該數據集的目的是推動大規模多模態模型訓練以及處理從公開互聯網爬取的未整理大規模數據集的研究和實驗。因此,建議將該數據集用於研究目的。需注意,這個大規模數據集未經整理,收集的鏈接可能會指向令人極度不適和不安的內容。所以,請謹慎使用演示鏈接,並自行承擔風險。可以通過基於安全標籤過濾樣本(使用我們定製訓練的NSFW分類器)來提取“安全”子集。雖然這能大大降低查看時遇到潛在有害內容的幾率,但我們不能完全排除安全模式下仍存在有害內容的可能性,因此該警告同樣適用。我們認為,向廣大研究和其他感興趣的社區公開提供該數據集,有助於透明地研究訓練大規模模型帶來的益處,以及使用封閉的、僅限小部分社區使用的大型數據集時可能未被報告或注意到的陷阱和危險。然而,我們不建議使用該數據集來創建現成的工業產品,因為關於此類大規模模型的一般特性和安全性的基礎研究仍在進行中。
訓練過程
待補充。
📊 評估
使用[LAION CLIP Benchmark suite](https://github.com/LAION - AI/CLIP_benchmark)中的代碼進行評估。
測試數據、因素和指標
測試數據
分類任務使用VTAB +(VTAB(https://arxiv.org/abs/1910.04867)與其他魯棒性數據集的組合)進行測試,檢索任務使用COCO和Flickr進行測試。
評估結果
該模型在ImageNet - 1k上的零樣本top - 1準確率達到70.2。已在更廣泛的數據集上進行了初步基準測試,目前可在https://github.com/LAION - AI/CLIP_benchmark/blob/main/benchmark/results.ipynb查看。
🙏 致謝
感謝高斯超級計算中心(Gauss Centre for Supercomputing e.V.,http://gauss - centre.eu)通過約翰·馮·諾伊曼計算研究所(NIC)在於利希超級計算中心(JSC)的GCS超級計算機JUWELS Booster上提供計算時間,資助了這部分工作。
📑 引用
BibTeX引用
LAION - 5B
@inproceedings{schuhmann2022laionb,
title={{LAION}-5B: An open large-scale dataset for training next generation image-text models},
author={Christoph Schuhmann and
Romain Beaumont and
Richard Vencu and
Cade W Gordon and
Ross Wightman and
Mehdi Cherti and
Theo Coombes and
Aarush Katta and
Clayton Mullis and
Mitchell Wortsman and
Patrick Schramowski and
Srivatsa R Kundurthy and
Katherine Crowson and
Ludwig Schmidt and
Robert Kaczmarczyk and
Jenia Jitsev},
booktitle={Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2022},
url={https://openreview.net/forum?id=M3Y74vmsMcY}
}
OpenAI CLIP論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP軟件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
📄 許可證
本模型採用MIT許可證。









