Vitmodel Skincheck
MIT
这是一个基于视觉变换器的模型,用于将面部皮肤类型分类为5个类别。
图像分类
Transformers 英语

V
belpin
61
1
Coco Instance Eomt Large 1280
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
PyTorch
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,揭示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
该论文提出了一种基于Vision Transformer (ViT) 的图像分割模型,揭示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
图像分割
A
tue-mps
116
0
Coco Panoptic Eomt Large 1280
MIT
该论文提出了一种新的视角,将Vision Transformer (ViT) 视为图像分割模型,并探讨了其在图像分割任务中的潜力。
图像分割
PyTorch
C
tue-mps
119
0
Coco Panoptic Eomt Large 640
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
图像分割
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
该模型通过重新思考Vision Transformer (ViT) 的架构,展示了其在图像分割任务中的潜力。
图像分割
PyTorch
C
tue-mps
90
0
Vit Chest Xray
MIT
基于Vision Transformer (ViT)架构的微调模型,用于对胸部X光片进行分类,训练于CheXpert数据集。
图像分类
Transformers 英语

V
codewithdark
316
1
C RADIOv2 B
其他
C-RADIOv2是NVIDIA开发的视觉特征提取模型,提供多种尺寸版本,适用于图像理解和密集视觉任务。
图像特征提取
Transformers

C
nvidia
404
8
Vit Base Patch16 Clip 224.dfn2b
其他
基于CLIP架构的视觉Transformer模型,由苹果公司发布的DFN2B-CLIP图像编码器权重
图像分类
Transformers

V
timm
444
0
Llm Jp Clip Vit Base Patch16
Apache-2.0
日语CLIP模型,基于OpenCLIP框架训练,支持零样本图像分类任务
文本生成图像 日语
L
llm-jp
40
1
Fairface Age Image Detection
Apache-2.0
基于Vision Transformer架构的图像分类模型,在ImageNet-21k数据集上预训练,适用于多类别图像分类任务
图像分类
Transformers

F
dima806
76.6M
10
Plant Identification Vit
Apache-2.0
基于Google Vision Transformer (ViT)架构微调的植物识别模型,在评估集上达到80.96%的准确率
图像分类
Transformers

P
marwaALzaabi
37
1
Vit Base Patch16 Clip 224.laion400m E31
MIT
基于LAION-400M数据集训练的视觉Transformer模型,支持零样本图像分类任务
图像分类
V
timm
1,469
0
Vit Base Patch32 Clip 224.laion2b E16
MIT
基于LAION-2B数据集训练的Vision Transformer模型,支持零样本图像分类任务
图像分类
V
timm
7,683
0
Vit Base Patch32 Clip 224.laion400m E32
MIT
基于LAION-400M数据集训练的Vision Transformer模型,支持OpenCLIP和timm双框架使用
图像分类
V
timm
5,957
0
Vit Facial Expression Recognition
基于ViT架构的面部表情识别模型,在imagefolder数据集上微调,准确率达91.77%
人脸相关
Transformers

V
Alpiyildo
581
1
Dust3r ViTLarge BaseDecoder 512 Dpt
DUSt3R是一个用于从图像轻松实现几何3D视觉的模型,能够从单张或多张图像重建3D场景。
3D视觉
D
naver
46.93k
14
Dust3r ViTLarge BaseDecoder 512 Linear
DUSt3R是一个用于从图像生成3D几何模型的深度学习模型,能够轻松实现几何3D视觉任务。
3D视觉
D
naver
313
0
Vit Base Violence Detection
Apache-2.0
基于Vision Transformer(ViT)架构优化的暴力行为检测模型,能够将图像分类为暴力或非暴力场景。
图像分类
Transformers 英语

V
jaranohaal
2,140
6
Dust3r ViTLarge BaseDecoder 224 Linear
DUSt3R是一个用于从图像轻松实现几何3D视觉的模型,能够从单张或多张图像重建3D场景。
3D视觉
D
naver
1,829
0
Cvlface Adaface Vit Base Kprpe Webface12m
MIT
基于关键点相对位置编码的人脸识别模型,采用ViT架构并在WebFace12M数据集上训练
人脸相关
Transformers 英语

C
minchul
122
1
Vit Facial Expression Recognition
基于ViT的面部表情识别模型,在FER2013、MMI和AffectNet数据集上微调,能够识别七种基本情绪
人脸相关
Transformers

V
motheecreator
4,221
13
Finetuned Clothes
Apache-2.0
基于Google的ViT模型微调的服装分类模型,支持7种服装类别的图像分类
图像分类
Transformers

F
samokosik
50
2
AI VS REAL IMAGE DETECTION
Apache-2.0
基于Google Vision Transformer (ViT)架构微调的图像分类模型,用于区分AI生成图像与真实图像
图像分类
Transformers

A
Hemg
259
2
Skin Cancer Image Classification
Apache-2.0
基于视觉变换器(ViT)的皮肤癌图像分类模型,可识别7种皮肤病变类型
图像分类
Transformers

S
Anwarkh1
3,309
22
Vit Base Nsfw Detector
Apache-2.0
基于Vision Transformer (ViT)架构的图像分类模型,专门用于检测图像是否包含NSFW(不安全)内容。
图像分类
Transformers

V
AdamCodd
1.2M
47
Vogue Fashion Collection 15
Apache-2.0
基于Google Vision Transformer (ViT)微调的时尚系列分类模型,可识别15个顶级时尚品牌的服装系列。
图像分类
Transformers

V
tonyassi
38
6
Vitforimageclassification
Apache-2.0
该模型是基于google/vit-base-patch16-224-in21k在CIFAR10数据集上微调的图像分类模型,准确率达96.78%。
图像分类
Transformers

V
Andron00e
43
2
Vit Finetuned Vanilla Cifar10 0
Apache-2.0
基于Vision Transformer (ViT)架构在CIFAR-10数据集上微调的图像分类模型,准确率达99.2%
图像分类
Transformers

V
02shanky
68
1
Deepfake Vs Real Image Detection
Apache-2.0
基于Vision Transformer架构的图像分类模型,用于检测真实图像与AI生成的伪造图像。
图像分类
Transformers

D
dima806
129.66k
27
Phikon
其他
Phikon是基于iBOT训练的组织病理学自监督学习模型,主要用于从组织学图像块中提取特征。
图像分类
Transformers 英语

P
owkin
741.63k
30
Dinov2 Small
Apache-2.0
基于DINOv2方法训练的小尺寸视觉Transformer模型,通过自监督学习提取图像特征
图像分类
Transformers

D
facebook
5.0M
31
Organoids Prova Organoid
Apache-2.0
该模型是基于Google的ViT-base-patch16-224在图像文件夹数据集上微调的图像分类模型,在评估集上取得了85.76%的准确率。
图像分类
Transformers

O
gcicceri
25
1
Sam Vit Base
Apache-2.0
SAM是一个能够通过输入提示(如点或框)生成高质量对象掩码的视觉模型,支持零样本分割任务
图像分割
Transformers 其他

S
facebook
635.09k
137
Clasificacion Vit Model Manuel Chaves
Apache-2.0
基于google/vit-base-patch16-224-in21k微调的图像分类模型,在豆类数据集上达到97.74%的准确率
图像分类
Transformers

C
machves
15
0
Driver Drowsiness Detection
Apache-2.0
基于ViT架构的驾驶员疲劳检测模型,在UTA RLDD数据集上微调,准确率达97.5%
图像分类
Transformers

D
chbh7051
131
2
- 1
- 2
- 3
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98