C

CLIP ViT B 16 DataComp.XL S13b B90k

由laion開發
這是一個使用OpenCLIP在DataComp-1B數據集上訓練的CLIP ViT-B/16模型,主要用於零樣本圖像分類和圖像文本檢索。
下載量 4,461
發布時間 : 5/15/2023

模型概述

該模型基於CLIP架構,通過大規模多模態訓練實現零樣本圖像分類能力,支持跨模態檢索任務。

模型特點

大規模多模態訓練
使用DataComp-1B數據集的14億樣本進行訓練,具有強大的泛化能力。
零樣本學習能力
無需特定任務微調即可執行多種視覺任務,如零樣本圖像分類。
跨模態理解
能夠理解圖像和文本之間的語義關聯,支持跨模態檢索任務。

模型能力

零樣本圖像分類
圖像文本檢索
跨模態理解
圖像特徵提取

使用案例

計算機視覺
零樣本圖像分類
無需訓練即可對圖像進行分類,支持自定義分類體系。
在ImageNet-1k上達到73.5%的零樣本top-1準確率
圖像檢索
根據文本描述檢索相關圖像,或根據圖像檢索相關文本。
研究應用
多模態研究
用於研究視覺語言模型的表徵學習與跨模態理解。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase