C

CLIP ViT B 32 Laion2b S34b B79k

由laion開發
基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
下載量 1.1M
發布時間 : 9/14/2022

模型概述

該模型是CLIP架構的變體,使用ViT-B/32視覺編碼器,在LAION-5B的20億英語樣本子集上訓練。主要用於研究社區探索零樣本圖像分類和跨模態理解任務。

模型特點

零樣本學習能力
無需特定任務微調即可執行圖像分類任務
跨模態理解
能夠同時處理視覺和文本信息,實現圖像與文本的關聯
大規模訓練數據
使用LAION-2B數據集訓練,包含20億英語圖文對

模型能力

零樣本圖像分類
圖像-文本匹配
跨模態檢索
圖像特徵提取

使用案例

研究應用
零樣本圖像分類研究
探索模型在未見類別上的分類能力
在ImageNet-1k上達到66.6%的零樣本top-1準確率
跨模態理解研究
研究視覺與語言模態間的關聯機制
潛在應用
圖像檢索系統
基於文本描述檢索相關圖像
內容審核輔助
識別圖像中的特定內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase