C

CLIP Convnext Base W 320 Laion Aesthetic S13b B82k Augreg

由laion開發
基於ConvNeXt-Base架構的CLIP模型,在LAION-5B美學子集上訓練,支持320x320分辨率圖像分類
下載量 4,430
發布時間 : 1/10/2023

模型概述

該模型是OpenCLIP項目的一部分,採用ConvNeXt-Base作為圖像編碼器,專門針對零樣本圖像分類任務優化。在LAION-5B的美學子集上訓練,具有增強的圖像數據增強策略。

模型特點

ConvNeXt架構創新
首個大規模採用ConvNeXt架構的CLIP模型,探索替代傳統ViT和ResNet的方案
增強數據增強策略
採用擴展RRC隨機裁剪範圍、隨機擦除和隨機深度等增強技術提升模型正則化效果
高分辨率支持
支持320x320分辨率輸入,在更高分辨率下保持良好性能
美學數據集訓練
使用經過美學評分篩選的LAION-5B子集訓練,提升對高質量圖像的識別能力

模型能力

零樣本圖像分類
圖文檢索
圖像特徵提取

使用案例

圖像理解
開放域圖像分類
無需特定訓練即可對任意圖像進行分類
ImageNet-1k零樣本準確率達71.3%
圖文匹配
實現圖像與文本描述的跨模態匹配
研究應用
多模態模型研究
作為基礎模型用於視覺-語言聯合表示學習研究
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase