C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Rewind

由laion開發
基於LAION-2B數據集訓練的CLIP ConvNeXt-XXLarge模型,採用OpenCLIP框架實現,專注於零樣本圖像分類任務。
下載量 63
發布時間 : 2/26/2023

模型概述

這是一個大型視覺語言模型,結合了ConvNeXt-XXLarge圖像編碼器和文本編碼器,用於零樣本圖像分類和圖文檢索任務。

模型特點

大規模ConvNeXt架構
使用847M參數的ConvNeXt-XXLarge作為圖像編碼器,是發佈的最大ConvNeXt預訓練模型。
高性能零樣本分類
在ImageNet-1k上實現79.3%的top-1零樣本準確率,性能介於ViT-g和ViT-G之間。
高效訓練
採用大規模分佈式訓練,使用高達1024個GPU,全局批大小達到81920-95744。

模型能力

零樣本圖像分類
圖文檢索
圖像特徵提取
文本特徵提取

使用案例

計算機視覺
圖像分類
無需特定訓練即可對圖像進行分類
在ImageNet-1k上達到79.3%準確率
圖文檢索
根據文本描述搜索相關圖像或根據圖像生成描述
研究
多模態學習研究
用於研究視覺語言模型的表徵學習
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase