C

CLIP ViT L 14 DataComp.XL S13b B90k

由laion開發
該模型是基於DataComp-1B數據集訓練的CLIP ViT-L/14模型,主要用於零樣本圖像分類和圖文檢索任務。
下載量 586.75k
發布時間 : 4/26/2023

模型概述

使用OpenCLIP框架在DataComp-1B數據集上訓練的視覺語言模型,能夠執行零樣本圖像分類和圖文檢索等任務。

模型特點

大規模訓練數據
使用DataComp-1B數據集的14億樣本進行訓練,覆蓋廣泛視覺概念
零樣本能力
無需微調即可執行新類別圖像分類任務
跨模態理解
同時理解圖像和文本信息,支持圖文檢索任務

模型能力

零樣本圖像分類
圖文檢索
跨模態理解

使用案例

計算機視覺
圖像分類
無需訓練即可對新類別圖像進行分類
在ImageNet-1k上達到79.2%的零樣本top-1準確率
圖文檢索
根據文本描述搜索相關圖像,或根據圖像生成描述
研究
多模態研究
研究視覺語言模型的表徵學習和遷移能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase