C

CLIP Convnext Base W Laion Aesthetic S13b B82k

由laion開發
基於LAION-Aesthetic數據集訓練的ConvNeXt-Base架構CLIP模型,支持零樣本圖像分類和跨模態檢索任務
下載量 703
發布時間 : 1/3/2023

模型概述

該模型是使用OpenCLIP框架在LAION-Aesthetic數據集上訓練的ConvNeXt-Base架構CLIP模型,探索了ConvNeXt作為ViT和ResNet替代架構的可能性,在圖像分類任務中表現出色。

模型特點

ConvNeXt架構創新
首批大規模訓練的ConvNeXt CLIP模型,探索了該架構在CLIP任務中的潛力
增強訓練策略
採用隨機調整裁剪、隨機擦除和隨機深度等增強技術提升模型性能
高樣本效率
在130億樣本訓練下即達到71%+的ImageNet零樣本準確率,優於ViT-B/16在相同樣本量下的表現
多分辨率支持
提供256x256和320x320兩種分辨率版本,適應不同應用場景需求

模型能力

零樣本圖像分類
圖像文本匹配
跨模態檢索
圖像特徵提取

使用案例

內容檢索
圖像搜索引擎
基於文本查詢檢索相關圖像
反向圖像搜索
基於圖像內容查找相似或相關圖像
分類系統
零樣本分類
無需微調即可對新類別進行分類
ImageNet-1k上71.0%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase