# ViT架構

Vitmodel Skincheck
MIT
這是一個基於視覺變換器的模型,用於將面部皮膚類型分類為5個類別。
圖像分類 Transformers 英語
V
belpin
61
1
Coco Instance Eomt Large 1280
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
圖像分割 PyTorch
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,揭示了ViT在圖像分割任務中的潛力。
圖像分割
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
該論文提出了一種基於Vision Transformer (ViT) 的圖像分割模型,揭示了ViT在圖像分割任務中的潛力。
圖像分割
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
圖像分割
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力,通過特定架構調整使其適用於分割任務。
圖像分割
A
tue-mps
116
0
Coco Panoptic Eomt Large 1280
MIT
該論文提出了一種新的視角,將Vision Transformer (ViT) 視為圖像分割模型,並探討了其在圖像分割任務中的潛力。
圖像分割 PyTorch
C
tue-mps
119
0
Coco Panoptic Eomt Large 640
MIT
該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力,通過特定架構調整使其適用於分割任務。
圖像分割
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
圖像分割
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
該模型通過重新思考Vision Transformer (ViT) 的架構,展示了其在圖像分割任務中的潛力。
圖像分割 PyTorch
C
tue-mps
90
0
Vit Chest Xray
MIT
基於Vision Transformer (ViT)架構的微調模型,用於對胸部X光片進行分類,訓練於CheXpert數據集。
圖像分類 Transformers 英語
V
codewithdark
316
1
C RADIOv2 B
其他
C-RADIOv2是NVIDIA開發的視覺特徵提取模型,提供多種尺寸版本,適用於圖像理解和密集視覺任務。
Transformers
C
nvidia
404
8
Vit Base Patch16 Clip 224.dfn2b
其他
基於CLIP架構的視覺Transformer模型,由蘋果公司發佈的DFN2B-CLIP圖像編碼器權重
圖像分類 Transformers
V
timm
444
0
Llm Jp Clip Vit Base Patch16
Apache-2.0
日語CLIP模型,基於OpenCLIP框架訓練,支持零樣本圖像分類任務
文本生成圖像 日語
L
llm-jp
40
1
Fairface Age Image Detection
Apache-2.0
基於Vision Transformer架構的圖像分類模型,在ImageNet-21k數據集上預訓練,適用於多類別圖像分類任務
圖像分類 Transformers
F
dima806
76.6M
10
Plant Identification Vit
Apache-2.0
基於Google Vision Transformer (ViT)架構微調的植物識別模型,在評估集上達到80.96%的準確率
圖像分類 Transformers
P
marwaALzaabi
37
1
Vit Base Patch16 Clip 224.laion400m E31
MIT
基於LAION-400M數據集訓練的視覺Transformer模型,支持零樣本圖像分類任務
圖像分類
V
timm
1,469
0
Vit Base Patch32 Clip 224.laion2b E16
MIT
基於LAION-2B數據集訓練的Vision Transformer模型,支持零樣本圖像分類任務
圖像分類
V
timm
7,683
0
Vit Base Patch32 Clip 224.laion400m E32
MIT
基於LAION-400M數據集訓練的Vision Transformer模型,支持OpenCLIP和timm雙框架使用
圖像分類
V
timm
5,957
0
Vit Facial Expression Recognition
基於ViT架構的面部表情識別模型,在imagefolder數據集上微調,準確率達91.77%
人臉相關 Transformers
V
Alpiyildo
581
1
Dust3r ViTLarge BaseDecoder 512 Dpt
DUSt3R是一個用於從圖像輕鬆實現幾何3D視覺的模型,能夠從單張或多張圖像重建3D場景。
3D視覺
D
naver
46.93k
14
Dust3r ViTLarge BaseDecoder 512 Linear
DUSt3R是一個用於從圖像生成3D幾何模型的深度學習模型,能夠輕鬆實現幾何3D視覺任務。
3D視覺
D
naver
313
0
Vit Base Violence Detection
Apache-2.0
基於Vision Transformer(ViT)架構優化的暴力行為檢測模型,能夠將圖像分類為暴力或非暴力場景。
圖像分類 Transformers 英語
V
jaranohaal
2,140
6
Dust3r ViTLarge BaseDecoder 224 Linear
DUSt3R是一個用於從圖像輕鬆實現幾何3D視覺的模型,能夠從單張或多張圖像重建3D場景。
3D視覺
D
naver
1,829
0
Cvlface Adaface Vit Base Kprpe Webface12m
MIT
基於關鍵點相對位置編碼的人臉識別模型,採用ViT架構並在WebFace12M數據集上訓練
人臉相關 Transformers 英語
C
minchul
122
1
Vit Facial Expression Recognition
基於ViT的面部表情識別模型,在FER2013、MMI和AffectNet數據集上微調,能夠識別七種基本情緒
人臉相關 Transformers
V
motheecreator
4,221
13
Finetuned Clothes
Apache-2.0
基於Google的ViT模型微調的服裝分類模型,支持7種服裝類別的圖像分類
圖像分類 Transformers
F
samokosik
50
2
AI VS REAL IMAGE DETECTION
Apache-2.0
基於Google Vision Transformer (ViT)架構微調的圖像分類模型,用於區分AI生成圖像與真實圖像
圖像分類 Transformers
A
Hemg
259
2
Skin Cancer Image Classification
Apache-2.0
基於視覺變換器(ViT)的皮膚癌圖像分類模型,可識別7種皮膚病變類型
圖像分類 Transformers
S
Anwarkh1
3,309
22
Vit Base Nsfw Detector
Apache-2.0
基於Vision Transformer (ViT)架構的圖像分類模型,專門用於檢測圖像是否包含NSFW(不安全)內容。
圖像分類 Transformers
V
AdamCodd
1.2M
47
Vogue Fashion Collection 15
Apache-2.0
基於Google Vision Transformer (ViT)微調的時尚系列分類模型,可識別15個頂級時尚品牌的服裝系列。
圖像分類 Transformers
V
tonyassi
38
6
Vitforimageclassification
Apache-2.0
該模型是基於google/vit-base-patch16-224-in21k在CIFAR10數據集上微調的圖像分類模型,準確率達96.78%。
圖像分類 Transformers
V
Andron00e
43
2
Vit Finetuned Vanilla Cifar10 0
Apache-2.0
基於Vision Transformer (ViT)架構在CIFAR-10數據集上微調的圖像分類模型,準確率達99.2%
圖像分類 Transformers
V
02shanky
68
1
Deepfake Vs Real Image Detection
Apache-2.0
基於Vision Transformer架構的圖像分類模型,用於檢測真實圖像與AI生成的偽造圖像。
圖像分類 Transformers
D
dima806
129.66k
27
Phikon
其他
Phikon是基於iBOT訓練的組織病理學自監督學習模型,主要用於從組織學圖像塊中提取特徵。
圖像分類 Transformers 英語
P
owkin
741.63k
30
Dinov2 Small
Apache-2.0
基於DINOv2方法訓練的小尺寸視覺Transformer模型,通過自監督學習提取圖像特徵
圖像分類 Transformers
D
facebook
5.0M
31
Organoids Prova Organoid
Apache-2.0
該模型是基於Google的ViT-base-patch16-224在圖像文件夾數據集上微調的圖像分類模型,在評估集上取得了85.76%的準確率。
圖像分類 Transformers
O
gcicceri
25
1
Sam Vit Base
Apache-2.0
SAM是一個能夠通過輸入提示(如點或框)生成高質量對象掩碼的視覺模型,支持零樣本分割任務
圖像分割 Transformers 其他
S
facebook
635.09k
137
Clasificacion Vit Model Manuel Chaves
Apache-2.0
基於google/vit-base-patch16-224-in21k微調的圖像分類模型,在豆類數據集上達到97.74%的準確率
圖像分類 Transformers
C
machves
15
0
Driver Drowsiness Detection
Apache-2.0
基於ViT架構的駕駛員疲勞檢測模型,在UTA RLDD數據集上微調,準確率達97.5%
圖像分類 Transformers
D
chbh7051
131
2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase