V

Vit Base Patch16 Clip 224.laion2b

Developed by timm
基于CLIP架构的视觉Transformer模型,仅包含图像编码器部分,适用于图像特征提取任务
Downloads 4,460
Release Time : 12/24/2024

Model Overview

该模型是CLIP框架中的视觉编码器部分,采用ViT-B/16架构,在laion2B数据集上训练,可用于提取高质量的图像特征表示

Model Features

大规模预训练
在laion2B超大规模数据集上训练,包含34亿样本
高效图像编码
基于Vision Transformer架构,能高效处理224x224分辨率图像
多模态兼容性
虽然仅包含图像编码器,但特征空间与CLIP文本编码器对齐

Model Capabilities

图像特征提取
图像相似度计算
视觉内容理解

Use Cases

计算机视觉
图像检索
通过提取的图像特征进行相似图像搜索
视觉内容分析
提取图像的高级语义特征用于分类或标注
多模态应用
图文匹配
与CLIP文本编码器配合实现跨模态检索
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase