# ImageNet微調

Convnextv2 Tiny.fcmae
基於ConvNeXt-V2的自監督特徵表示模型,採用全卷積掩碼自編碼器框架(FCMAE)進行預訓練,適用於圖像特徵提取和微調任務。
圖像分類 Transformers
C
timm
2,463
1
Swinv2 Large Patch4 Window12to16 192to256 22kto1k Ft
Apache-2.0
Swin Transformer v2是一種視覺Transformer模型,通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類和密集識別任務。
圖像分類 Transformers
S
microsoft
812
4
Data2vec Vision Base Ft1k
Apache-2.0
Data2Vec-Vision是基於BEiT架構的自監督學習模型,在ImageNet-1k數據集上微調,適用於圖像分類任務。
圖像分類 Transformers
D
facebook
7,520
2
Data2vec Vision Large Ft1k
Apache-2.0
Data2Vec-Vision是一個基於BEiT架構的自監督學習視覺模型,在ImageNet-1k數據集上微調,適用於圖像分類任務。
圖像分類 Transformers
D
facebook
68
5
Regnet Y 1280 Seer In1k
Apache-2.0
基於ImageNet-1k訓練的RegNet圖像分類模型,採用自監督預訓練和微調方法
圖像分類 Transformers
R
facebook
18
1
Regnet Y 640 Seer In1k
Apache-2.0
基於imagenet-1k訓練的RegNet模型,採用自監督方式在數十億張隨機網絡圖像上預訓練後微調
圖像分類 Transformers
R
facebook
21
0
Vit Base Patch16 224
Apache-2.0
基於ImageNet-21k預訓練和ImageNet微調的視覺變換器模型,用於圖像分類任務
圖像分類
V
google
4.8M
775
Vit Base Patch16 384
Apache-2.0
Vision Transformer(ViT)是一種基於Transformer架構的圖像分類模型,先在ImageNet-21k上預訓練,後在ImageNet上微調。
圖像分類
V
google
30.30k
38
Vit Large Patch16 224
Apache-2.0
基於Transformer架構的大規模圖像分類模型,在ImageNet-21k和ImageNet-1k數據集上預訓練和微調
圖像分類
V
google
188.47k
30
Beit Large Patch16 384
Apache-2.0
BEiT是一種基於視覺Transformer的圖像分類模型,通過自監督方式在ImageNet-21k上預訓練,並在ImageNet-1k上微調。
圖像分類
B
microsoft
44
0
Convnext Base 224 22k 1k
Apache-2.0
ConvNeXT是一個純卷積模型,受視覺Transformer設計啟發,在ImageNet-22k上預訓練並在ImageNet-1k上微調,性能優於傳統Transformer。
圖像分類 Transformers
C
facebook
1,879
4
Vit Large Patch32 384
Apache-2.0
該視覺Transformer(ViT)模型先在ImageNet-21k數據集上預訓練,後在ImageNet數據集上微調,適用於圖像分類任務。
圖像分類
V
google
118.37k
16
Vit Large Patch16 384
Apache-2.0
視覺變換器(ViT)是一種基於變換器架構的圖像分類模型,先在ImageNet-21k上預訓練,後在ImageNet上微調。
圖像分類
V
google
161.29k
12
Vit Base Patch32 384
Apache-2.0
Vision Transformer(ViT)是一種基於Transformer架構的圖像分類模型,通過在ImageNet-21k和ImageNet數據集上進行預訓練和微調,實現了高效的圖像識別能力。
圖像分類
V
google
24.92k
20
Beit Base Patch16 224
Apache-2.0
BEiT是一種基於圖像變換器的視覺模型,採用類似BERT的自監督預訓練方法,先在ImageNet-22k上預訓練和微調,再在ImageNet-1k上微調。
圖像分類
B
nielsr
28
0
Deit Base Patch16 384
Apache-2.0
DeiT是一種高效訓練的Vision Transformer模型,在ImageNet-1k數據集上以384x384分辨率預訓練和微調,適用於圖像分類任務。
圖像分類 Transformers
D
facebook
442
3
Beit Large Patch16 512
Apache-2.0
BEiT是一種基於視覺Transformer的圖像分類模型,通過自監督方式在ImageNet-21k上預訓練,並在ImageNet-1k上微調。
圖像分類
B
microsoft
683
11
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase