C

Convnext Large Mlp.clip Laion2b Ft Soup 320

由 timm 开发
基于CLIP架构的ConvNeXt-Large图像编码器,在LAION-2B数据集上微调,支持320x320分辨率图像特征提取
下载量 173
发布时间 : 12/24/2024

模型简介

该模型是CLIP框架中的图像编码器部分,采用ConvNeXt-Large架构,专门用于从图像中提取高质量特征表示。模型在LAION-2B数据集上进行了微调,适用于视觉-语言对齐任务。

模型特点

高分辨率支持
支持320x320分辨率的图像输入,能够捕捉更精细的视觉特征
大规模预训练
在LAION-2B大规模数据集上进行预训练和微调,具有强大的泛化能力
ConvNeXt架构
采用现代ConvNeXt-Large架构,结合了CNN和Transformer的优势

模型能力

图像特征提取
视觉表示学习
跨模态对齐

使用案例

计算机视觉
图像检索
通过提取的图像特征进行相似图像搜索
视觉问答
作为视觉理解模块用于VQA系统
多模态应用
图文匹配
评估图像和文本描述之间的相关性
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase