C

CLIP Convnext Base W 320 Laion Aesthetic S13b B82k

由laion開發
基於ConvNeXt-Base架構的CLIP模型,在LAION-5B子集上訓練,適用於零樣本圖像分類和圖像文本檢索任務。
下載量 12.67k
發布時間 : 1/3/2023

模型概述

這是一個基於ConvNeXt-Base架構的CLIP模型,使用OpenCLIP在LAION-5B的子集上訓練而成。模型探索了替代ViT和ResNet的架構,在模型大小和圖像分辨率上具有良好的擴展性。

模型特點

ConvNeXt架構
首次大規模訓練的ConvNeXt CLIP模型,探索替代ViT和ResNet的架構可能性
增強和正則化
採用隨機調整裁剪、隨機擦除和隨機深度等增強和正則化技術提升模型性能
高分辨率訓練
部分模型在320x320高分辨率下訓練,提升圖像識別精度
樣本效率高
相比ViT-B/16模型,在更少訓練樣本下達到更高準確率

模型能力

零樣本圖像分類
圖像文本檢索
圖像特徵提取
文本特徵提取

使用案例

計算機視覺
圖像分類
無需微調即可對圖像進行分類
ImageNet零樣本top-1準確率71.7%
圖像檢索
根據文本描述檢索相關圖像
多模態研究
視覺語言對齊
研究圖像和文本表示之間的對齊關係
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase