C

CLIP Convnext Large D 320.laion2B S29b B131k Ft

由laion開發
基於ConvNeXt-Large架構的CLIP模型,在LAION-2B數據集上訓練,支持零樣本圖像分類和圖像文本檢索任務。
下載量 3,810
發布時間 : 2/11/2023

模型概述

該模型採用ConvNeXt-Large作為視覺編碼器,具有額外的文本深度和視覺MLP頭,在320x320分辨率下進行微調,適用於零樣本圖像分類和跨模態檢索任務。

模型特點

高分辨率處理能力
在320x320分辨率下微調,比同類模型更高效,計算資源消耗更低。
增強的視覺MLP頭
視覺塔使用MLP(fc-gelu-drop-fc)頭而非單一投影,提升特徵表達能力。
大規模訓練數據
基於LAION-2B數據集(20億英語樣本)訓練,覆蓋廣泛視覺概念。

模型能力

零樣本圖像分類
圖像文本檢索
跨模態表示學習

使用案例

圖像理解
零樣本圖像分類
無需微調即可對新類別圖像進行分類
在ImageNet-1k上達到76.6%的零樣本Top-1準確率
跨模態檢索
圖文檢索系統
構建基於自然語言查詢的圖像檢索系統
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase