C

CLIP Convnext Base W Laion2b S13b B82k

由laion開發
基於ConvNeXt-Base架構的CLIP模型,在LAION-5B子集上訓練,支持零樣本圖像分類和圖文檢索任務
下載量 4,522
發布時間 : 1/3/2023

模型概述

該模型是使用OpenCLIP框架訓練的CLIP模型變體,採用ConvNeXt-Base作為圖像編碼器,在LAION-5B數據集子集上訓練,具有優秀的零樣本圖像分類能力

模型特點

ConvNeXt架構
採用ConvNeXt-Base作為圖像編碼器,探索替代ViT和ResNet的CLIP模型架構
增強正則化
使用隨機調整裁剪、隨機擦除和隨機深度等增強技術提高模型性能
高分辨率訓練
在320x320高分辨率下訓練,提升圖像識別能力
大規模訓練
在LAION-5B數據集子集上訓練13B樣本,具有優秀的樣本效率

模型能力

零樣本圖像分類
圖像文本檢索
跨模態表示學習

使用案例

計算機視覺
圖像分類
無需微調即可對圖像進行分類
ImageNet零樣本準確率71.7%
圖文檢索
實現圖像到文本或文本到圖像的檢索
研究
多模態研究
用於研究視覺語言聯合表示學習
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase