C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Rewind

Developed by laion
基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型,采用OpenCLIP框架实现,专注于零样本图像分类任务。
Downloads 63
Release Time : 2/26/2023

Model Overview

这是一个大型视觉语言模型,结合了ConvNeXt-XXLarge图像编码器和文本编码器,用于零样本图像分类和图文检索任务。

Model Features

大规模ConvNeXt架构
使用847M参数的ConvNeXt-XXLarge作为图像编码器,是发布的最大ConvNeXt预训练模型。
高性能零样本分类
在ImageNet-1k上实现79.3%的top-1零样本准确率,性能介于ViT-g和ViT-G之间。
高效训练
采用大规模分布式训练,使用高达1024个GPU,全局批大小达到81920-95744。

Model Capabilities

零样本图像分类
图文检索
图像特征提取
文本特征提取

Use Cases

计算机视觉
图像分类
无需特定训练即可对图像进行分类
在ImageNet-1k上达到79.3%准确率
图文检索
根据文本描述搜索相关图像或根据图像生成描述
研究
多模态学习研究
用于研究视觉语言模型的表征学习
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase