V

Vit Large Patch14 Clip 224.dfn2b

由 timm 开发
基于CLIP架构的视觉变换器模型,专注于图像特征提取,由苹果公司发布。
下载量 178
发布时间 : 12/26/2024

模型简介

该模型是CLIP(对比语言-图像预训练)的图像编码器部分,采用Vision Transformer (ViT)架构,适用于图像特征提取任务。

模型特点

基于CLIP架构
采用对比学习框架,能够学习图像和文本的联合表示。
Vision Transformer
使用ViT架构处理图像,将图像分割为patch序列进行处理。
大规模预训练
在大型数据集上预训练,具有强大的特征提取能力。

模型能力

图像特征提取
图像表示学习

使用案例

计算机视觉
图像检索
使用提取的图像特征进行相似图像检索。
视觉问答
作为视觉问答系统的图像编码器。
多模态学习
图文匹配
用于图像和文本的跨模态匹配任务。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase