C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg

由laion開發
基於LAION-2B數據集訓練的CLIP ConvNeXt-XXLarge模型,採用OpenCLIP框架實現,是首個非ViT架構達到>79% ImageNet零樣本準確率的CLIP模型
下載量 6,616
發布時間 : 2/26/2023

模型概述

該模型是CLIP架構的變體,使用ConvNeXt-XXLarge作為圖像編碼器,在LAION-2B數據集上訓練,支持零樣本圖像分類和圖文檢索任務

模型特點

大規模ConvNeXt架構
使用847M參數的ConvNeXt-XXLarge作為圖像編碼器,是當前最大的ConvNeXt預訓練模型
高性能零樣本分類
在ImageNet上達到79.1%的零樣本Top-1準確率,性能介於ViT-g和ViT-G之間
優化的訓練過程
採用分階段訓練策略,使用高達95744的全局批次大小,結合bfloat16精度和特殊優化策略
圖像尺寸適應性
相比ViT架構,在更大輸入分辨率下具有更好的計算效率和性能表現

模型能力

零樣本圖像分類
圖文相似度計算
跨模態檢索
圖像特徵提取
文本特徵提取

使用案例

計算機視覺
圖像分類
無需微調即可對任意類別圖像進行分類
ImageNet上79.1% Top-1準確率
圖像檢索
基於文本描述檢索相關圖像
多模態研究
視覺語言對齊
研究圖像和文本表示空間的對齊
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase