# ViT架构

Vitmodel Skincheck
MIT
这是一个基于视觉变换器的模型,用于将面部皮肤类型分类为5个类别。
图像分类 Transformers 英语
V
belpin
61
1
Coco Instance Eomt Large 1280
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割 PyTorch
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,揭示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
该论文提出了一种基于Vision Transformer (ViT) 的图像分割模型,揭示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
图像分割
A
tue-mps
116
0
Coco Panoptic Eomt Large 1280
MIT
该论文提出了一种新的视角,将Vision Transformer (ViT) 视为图像分割模型,并探讨了其在图像分割任务中的潜力。
图像分割 PyTorch
C
tue-mps
119
0
Coco Panoptic Eomt Large 640
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
图像分割
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
该模型通过重新思考Vision Transformer (ViT) 的架构,展示了其在图像分割任务中的潜力。
图像分割 PyTorch
C
tue-mps
90
0
Vit Chest Xray
MIT
基于Vision Transformer (ViT)架构的微调模型,用于对胸部X光片进行分类,训练于CheXpert数据集。
图像分类 Transformers 英语
V
codewithdark
316
1
C RADIOv2 B
其他
C-RADIOv2是NVIDIA开发的视觉特征提取模型,提供多种尺寸版本,适用于图像理解和密集视觉任务。
图像特征提取 Transformers
C
nvidia
404
8
Vit Base Patch16 Clip 224.dfn2b
其他
基于CLIP架构的视觉Transformer模型,由苹果公司发布的DFN2B-CLIP图像编码器权重
图像分类 Transformers
V
timm
444
0
Llm Jp Clip Vit Base Patch16
Apache-2.0
日语CLIP模型,基于OpenCLIP框架训练,支持零样本图像分类任务
文本生成图像 日语
L
llm-jp
40
1
Fairface Age Image Detection
Apache-2.0
基于Vision Transformer架构的图像分类模型,在ImageNet-21k数据集上预训练,适用于多类别图像分类任务
图像分类 Transformers
F
dima806
76.6M
10
Plant Identification Vit
Apache-2.0
基于Google Vision Transformer (ViT)架构微调的植物识别模型,在评估集上达到80.96%的准确率
图像分类 Transformers
P
marwaALzaabi
37
1
Vit Base Patch16 Clip 224.laion400m E31
MIT
基于LAION-400M数据集训练的视觉Transformer模型,支持零样本图像分类任务
图像分类
V
timm
1,469
0
Vit Base Patch32 Clip 224.laion2b E16
MIT
基于LAION-2B数据集训练的Vision Transformer模型,支持零样本图像分类任务
图像分类
V
timm
7,683
0
Vit Base Patch32 Clip 224.laion400m E32
MIT
基于LAION-400M数据集训练的Vision Transformer模型,支持OpenCLIP和timm双框架使用
图像分类
V
timm
5,957
0
Vit Facial Expression Recognition
基于ViT架构的面部表情识别模型,在imagefolder数据集上微调,准确率达91.77%
人脸相关 Transformers
V
Alpiyildo
581
1
Dust3r ViTLarge BaseDecoder 512 Dpt
DUSt3R是一个用于从图像轻松实现几何3D视觉的模型,能够从单张或多张图像重建3D场景。
3D视觉
D
naver
46.93k
14
Dust3r ViTLarge BaseDecoder 512 Linear
DUSt3R是一个用于从图像生成3D几何模型的深度学习模型,能够轻松实现几何3D视觉任务。
3D视觉
D
naver
313
0
Vit Base Violence Detection
Apache-2.0
基于Vision Transformer(ViT)架构优化的暴力行为检测模型,能够将图像分类为暴力或非暴力场景。
图像分类 Transformers 英语
V
jaranohaal
2,140
6
Dust3r ViTLarge BaseDecoder 224 Linear
DUSt3R是一个用于从图像轻松实现几何3D视觉的模型,能够从单张或多张图像重建3D场景。
3D视觉
D
naver
1,829
0
Cvlface Adaface Vit Base Kprpe Webface12m
MIT
基于关键点相对位置编码的人脸识别模型,采用ViT架构并在WebFace12M数据集上训练
人脸相关 Transformers 英语
C
minchul
122
1
Vit Facial Expression Recognition
基于ViT的面部表情识别模型,在FER2013、MMI和AffectNet数据集上微调,能够识别七种基本情绪
人脸相关 Transformers
V
motheecreator
4,221
13
Finetuned Clothes
Apache-2.0
基于Google的ViT模型微调的服装分类模型,支持7种服装类别的图像分类
图像分类 Transformers
F
samokosik
50
2
AI VS REAL IMAGE DETECTION
Apache-2.0
基于Google Vision Transformer (ViT)架构微调的图像分类模型,用于区分AI生成图像与真实图像
图像分类 Transformers
A
Hemg
259
2
Skin Cancer Image Classification
Apache-2.0
基于视觉变换器(ViT)的皮肤癌图像分类模型,可识别7种皮肤病变类型
图像分类 Transformers
S
Anwarkh1
3,309
22
Vit Base Nsfw Detector
Apache-2.0
基于Vision Transformer (ViT)架构的图像分类模型,专门用于检测图像是否包含NSFW(不安全)内容。
图像分类 Transformers
V
AdamCodd
1.2M
47
Vogue Fashion Collection 15
Apache-2.0
基于Google Vision Transformer (ViT)微调的时尚系列分类模型,可识别15个顶级时尚品牌的服装系列。
图像分类 Transformers
V
tonyassi
38
6
Vitforimageclassification
Apache-2.0
该模型是基于google/vit-base-patch16-224-in21k在CIFAR10数据集上微调的图像分类模型,准确率达96.78%。
图像分类 Transformers
V
Andron00e
43
2
Vit Finetuned Vanilla Cifar10 0
Apache-2.0
基于Vision Transformer (ViT)架构在CIFAR-10数据集上微调的图像分类模型,准确率达99.2%
图像分类 Transformers
V
02shanky
68
1
Deepfake Vs Real Image Detection
Apache-2.0
基于Vision Transformer架构的图像分类模型,用于检测真实图像与AI生成的伪造图像。
图像分类 Transformers
D
dima806
129.66k
27
Phikon
其他
Phikon是基于iBOT训练的组织病理学自监督学习模型,主要用于从组织学图像块中提取特征。
图像分类 Transformers 英语
P
owkin
741.63k
30
Dinov2 Small
Apache-2.0
基于DINOv2方法训练的小尺寸视觉Transformer模型,通过自监督学习提取图像特征
图像分类 Transformers
D
facebook
5.0M
31
Organoids Prova Organoid
Apache-2.0
该模型是基于Google的ViT-base-patch16-224在图像文件夹数据集上微调的图像分类模型,在评估集上取得了85.76%的准确率。
图像分类 Transformers
O
gcicceri
25
1
Sam Vit Base
Apache-2.0
SAM是一个能够通过输入提示(如点或框)生成高质量对象掩码的视觉模型,支持零样本分割任务
图像分割 Transformers 其他
S
facebook
635.09k
137
Clasificacion Vit Model Manuel Chaves
Apache-2.0
基于google/vit-base-patch16-224-in21k微调的图像分类模型,在豆类数据集上达到97.74%的准确率
图像分类 Transformers
C
machves
15
0
Driver Drowsiness Detection
Apache-2.0
基于ViT架构的驾驶员疲劳检测模型,在UTA RLDD数据集上微调,准确率达97.5%
图像分类 Transformers
D
chbh7051
131
2
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase