C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup

由laion開發
基於LAION-2B數據集訓練的CLIP ConvNeXt-XXLarge模型,採用OpenCLIP框架訓練,是首個非ViT圖像塔CLIP模型實現>79% ImageNet top-1零樣本準確率
下載量 9,412
發布時間 : 2/26/2023

模型概述

該模型是使用ConvNeXt-XXLarge架構的CLIP模型,專門用於零樣本圖像分類和圖像文本檢索任務。它通過模型湯方法結合了兩個訓練階段的權重,在256x256分辨率下表現出色。

模型特點

大規模ConvNeXt架構
採用847M參數的ConvNeXt-XXLarge作為圖像塔,是目前發佈的最大ConvNeXt預訓練模型
高性能零樣本分類
在ImageNet上達到79.4%的零樣本top-1準確率,超越許多ViT架構模型
高效計算
在256x256分辨率下,計算效率介於ViT-g和ViT-G之間,但資源消耗顯著低於後者
模型湯集成
通過平均兩個不同訓練階段的模型權重,進一步提升性能

模型能力

零樣本圖像分類
圖像文本檢索
圖像特徵提取
文本特徵提取

使用案例

計算機視覺
零樣本圖像分類
無需特定訓練即可對圖像進行分類
在ImageNet上達到79.4% top-1準確率
圖像檢索
根據文本描述檢索相關圖像
多模態研究
視覺語言對齊研究
研究圖像和文本表示之間的對齊關係
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase