C

CLIP ViT B 32 256x256 DataComp S34b B86k

由laion開發
這是一個基於DataComp-1B數據集訓練的CLIP ViT-B/32模型,使用OpenCLIP框架在256x256分辨率下完成訓練,主要用於零樣本圖像分類和圖文檢索任務。
下載量 4,332
發布時間 : 9/12/2023

模型概述

該模型是基於DataComp-1B數據集訓練的視覺語言模型,能夠執行零樣本圖像分類和圖文檢索等任務。

模型特點

大規模數據訓練
使用DataComp-1B數據集的14億樣本進行訓練,具有強大的泛化能力。
零樣本學習能力
無需特定任務微調即可執行多種圖像分類任務。
高分辨率支持
支持256x256分辨率的圖像輸入,能捕捉更豐富的視覺細節。

模型能力

零樣本圖像分類
圖像文本檢索
跨模態理解

使用案例

圖像理解
零樣本圖像分類
無需訓練即可對圖像進行分類
在ImageNet-1k上達到72.7%的零樣本top-1準確率
圖文檢索
根據文本查詢檢索相關圖像或根據圖像檢索相關文本
在COCO數據集上實現64.4%的圖像檢索recall@5和80.7%的文本檢索recall@5
研究
跨模態學習研究
研究視覺和語言模態之間的關聯
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase