# ImageNet-21k預訓練

Vit Large Patch16 224.orig In21k
Apache-2.0
基於Vision Transformer(ViT)的圖像分類模型,由Google Research在JAX框架下使用ImageNet-21k預訓練,後移植到PyTorch。適用於特徵提取和微調場景。
圖像分類 Transformers
V
timm
584
2
Vit Base Patch16 224.orig In21k
Apache-2.0
基於Vision Transformer的圖像分類模型,在ImageNet-21k上預訓練,適用於特徵提取和微調
圖像分類 Transformers
V
timm
23.07k
1
Dog Breeds Multiclass Image Classification With Vit
MIT
使用谷歌視覺Transformer架構微調的犬種分類模型,支持120種犬類的圖像識別
圖像分類 Transformers
D
wesleyacheng
584
4
Vit Base R50 S16 224.orig In21k
Apache-2.0
結合ResNet與Vision Transformer的混合圖像分類模型,基於ImageNet-21k預訓練,適用於特徵提取和微調場景。
圖像分類 Transformers
V
timm
876
0
Vit Large Patch32 224.orig In21k
Apache-2.0
基於Vision Transformer (ViT)架構的圖像分類模型,在ImageNet-21k數據集上預訓練,適用於特徵提取和微調場景。
圖像分類 Transformers
V
timm
771
0
Vit Huge Patch14 224.orig In21k
Apache-2.0
基於Vision Transformer (ViT)架構的大規模圖像特徵提取模型,在ImageNet-21k數據集上預訓練
圖像分類 Transformers
V
timm
3,214
2
Swinv2 Large Patch4 Window12 192 22k
Apache-2.0
Swin Transformer v2是一種視覺Transformer模型,通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類和密集識別任務。
圖像分類 Transformers
S
microsoft
3,816
10
Swin Base Patch4 Window7 224 In22k
Apache-2.0
Swin Transformer是一種基於分層窗口計算的視覺Transformer模型,在ImageNet-21k數據集上預訓練,適用於圖像分類任務。
圖像分類 Transformers
S
microsoft
13.30k
15
Swin Base Patch4 Window12 384 In22k
Apache-2.0
Swin Transformer是一種基於移位窗口的分層視覺Transformer模型,專為圖像分類任務設計。
圖像分類 Transformers
S
microsoft
2,431
1
Beit Base Patch16 224 Pt22k
Apache-2.0
BEiT是一種基於視覺Transformer的模型,通過自監督學習在ImageNet-21k數據集上預訓練,用於圖像分類任務。
圖像分類
B
microsoft
2,647
3
Vit Large Patch32 224 In21k
Apache-2.0
該視覺Transformer(ViT)模型在ImageNet-21k數據集上預訓練,適用於圖像分類任務。
圖像分類
V
google
4,943
1
Vit Large Patch16 224 In21k
Apache-2.0
基於ImageNet-21k數據集預訓練的視覺Transformer模型,適用於圖像特徵提取和下游任務微調。
圖像分類
V
google
92.63k
26
Swin Large Patch4 Window7 224 In22k
Apache-2.0
Swin Transformer是一種基於移動窗口的分層視覺Transformer,在ImageNet-21k數據集上預訓練,適用於圖像分類任務。
圖像分類 Transformers
S
microsoft
387
2
Swin Large Patch4 Window12 384 In22k
Apache-2.0
Swin Transformer是一種基於分層窗口的視覺Transformer模型,在ImageNet-21k數據集上預訓練,適用於圖像分類任務。
圖像分類 Transformers
S
microsoft
1,063
7
Beit Large Patch16 224 Pt22k
Apache-2.0
BEiT是一種基於視覺Transformer(ViT)的自監督學習模型,通過ImageNet-21k數據集預訓練,用於圖像分類任務。
圖像分類
B
microsoft
237
2
Vit Base Patch32 224 In21k
Apache-2.0
該視覺變換器(ViT)模型在ImageNet-21k數據集上以224x224分辨率進行了預訓練,適用於圖像分類任務。
圖像分類
V
google
35.10k
19
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase