C

CLIP ViT B 32 Laion2b S34b B79k

由rroset開發
基於OpenCLIP框架在LAION-2B數據集上訓練的CLIP ViT-B/32模型,支持零樣本圖像分類和跨模態檢索任務
下載量 48
發布時間 : 6/25/2024

模型概述

這是一個視覺-語言預訓練模型,能夠理解圖像和文本之間的關聯,支持零樣本圖像分類、圖像文本檢索等任務。

模型特點

零樣本學習能力
無需特定任務微調即可執行新類別的圖像分類
跨模態理解
能夠同時處理圖像和文本,理解兩者之間的語義關聯
大規模預訓練
在LAION-2B(20億樣本)數據集上進行訓練,具有強大的泛化能力

模型能力

零樣本圖像分類
圖像文本檢索
跨模態表示學習
圖像特徵提取

使用案例

內容檢索
圖像搜索
使用文本查詢搜索相關圖像
圖像理解
零樣本分類
無需訓練即可對新類別圖像進行分類
ImageNet-1k上66.6%的零樣本top-1準確率
研究應用
跨模態研究
研究視覺和語言模態之間的關係
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase