V

Vit Huge Patch14 Clip 224.dfn5b

由 timm 开发
基于CLIP架构的ViT-Huge图像编码器,由苹果公司发布的DFN5B-CLIP模型,适用于视觉特征提取任务。
下载量 128
发布时间 : 12/26/2024

模型简介

该模型是CLIP架构的视觉变换器(ViT)实现,专门用于图像特征提取。采用huge规模的patch14结构,输入分辨率为224x224像素。

模型特点

大规模视觉变换器
采用ViT-Huge架构,具有强大的图像特征提取能力
CLIP兼容设计
基于CLIP框架开发,可与文本编码器配合使用
高分辨率处理
支持224x224像素的输入分辨率

模型能力

图像特征提取
视觉表示学习

使用案例

计算机视觉
图像分类
提取图像特征用于分类任务
视觉搜索
为图像检索系统生成特征向量
多模态应用
图文匹配
与文本编码器配合实现跨模态检索
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase