C

CLIP Convnext Base W Laion2b S13b B82k Augreg

由laion開發
基於ConvNeXt-Base架構的CLIP模型,使用OpenCLIP在LAION-5B子集上訓練,專注於零樣本圖像分類任務
下載量 40.86k
發布時間 : 1/10/2023

模型概述

該模型是CLIP系列模型的一種變體,採用ConvNeXt-Base作為圖像編碼器,在LAION-2B數據集上訓練。探索了替代ViT和ResNet的架構,並增加了增強和正則化技術。

模型特點

ConvNeXt架構
首次大規模訓練的ConvNeXt CLIP模型,探索了替代ViT和ResNet的架構選擇
增強正則化
採用了隨機調整裁剪、隨機擦除和隨機深度等增強技術,提高了模型性能
高樣本效率
在13B樣本訓練後達到70%+的ImageNet零樣本準確率,顯示良好的樣本效率

模型能力

零樣本圖像分類
圖像文本檢索
跨模態表示學習

使用案例

計算機視覺
圖像分類
無需微調即可對任意類別圖像進行分類
ImageNet零樣本top-1準確率71.5%
圖像檢索
基於文本描述檢索相關圖像
研究
多模態學習研究
研究視覺和語言表示之間的對齊
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase