# 高分辨率圖像分類

Mambavision L3 512 21K
其他
MambaVision是首個結合曼巴(Mamba)與Transformer優勢的計算機視覺混合模型,通過重新設計曼巴公式增強視覺特徵建模能力,並在曼巴架構最後幾層加入自注意力模塊提升長距離空間依賴建模能力。
圖像分類 Transformers
M
nvidia
7,548
49
Mambavision L2 512 21K
其他
首個結合曼巴(Mamba)與Transformer優勢的混合計算機視覺模型,通過重構曼巴公式增強視覺特徵建模能力
圖像分類 Transformers
M
nvidia
2,678
3
Efficientnet B7
Apache-2.0
EfficientNet是一種高效的卷積神經網絡,通過統一縮放深度、寬度和分辨率實現高性能圖像分類
圖像分類 Transformers
E
google
6,522
17
Swinv2 Large Patch4 Window12to24 192to384 22kto1k Ft
Apache-2.0
Swin Transformer v2是基於ImageNet-21k預訓練並在384x384分辨率下對ImageNet-1k進行微調的視覺Transformer模型,具有分層特徵圖和局部窗口自注意力機制。
圖像分類 Transformers
S
microsoft
3,048
4
Swinv2 Large Patch4 Window12to16 192to256 22kto1k Ft
Apache-2.0
Swin Transformer v2是一種視覺Transformer模型,通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類和密集識別任務。
圖像分類 Transformers
S
microsoft
812
4
Swinv2 Base Patch4 Window12to16 192to256 22kto1k Ft
Apache-2.0
Swin Transformer v2是一種視覺Transformer模型,通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類。
圖像分類 Transformers
S
microsoft
459
1
Swinv2 Large Patch4 Window12 192 22k
Apache-2.0
Swin Transformer v2是一種視覺Transformer模型,通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類和密集識別任務。
圖像分類 Transformers
S
microsoft
3,816
10
Swinv2 Base Patch4 Window16 256
Apache-2.0
Swin Transformer v2是一種視覺Transformer模型,通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類和密集識別任務。
圖像分類 Transformers
S
microsoft
1,853
3
Swinv2 Small Patch4 Window8 256
Apache-2.0
Swin Transformer v2 是一種視覺Transformer模型,通過分層特徵圖和局部窗口自注意力機制實現高效的圖像處理。
圖像分類 Transformers
S
microsoft
1,836
0
Swinv2 Tiny Patch4 Window8 256
Apache-2.0
Swin Transformer v2是基於ImageNet-1k預訓練的視覺Transformer模型,採用分層特徵圖和局部窗口自注意力機制,具有線性計算複雜度。
圖像分類 Transformers
S
microsoft
25.04k
10
Cvt W24 384 22k
Apache-2.0
CvT-w24是基於ImageNet-22k預訓練並在384x384分辨率下微調的視覺變換器模型,通過引入卷積改進傳統視覺變換器。
圖像分類 Transformers
C
microsoft
66
0
Cvt 21 384
Apache-2.0
CvT-21是基於卷積視覺變換器架構的圖像分類模型,在ImageNet-1k數據集上以384x384分辨率預訓練。
圖像分類 Transformers
C
microsoft
29
1
Cvt 21 384 22k
Apache-2.0
CvT-21是一種結合卷積和Transformer架構的視覺模型,在ImageNet-22k上預訓練並在ImageNet-1k上微調
圖像分類 Transformers
C
microsoft
134
3
Cvt 13 384 22k
Apache-2.0
CvT-13是一種結合卷積和Transformer的視覺模型,在ImageNet-22k上預訓練並在ImageNet-1k上微調,適用於圖像分類任務。
圖像分類 Transformers
C
microsoft
508
0
Cvt 13 384
Apache-2.0
CvT-13是基於ImageNet-1k數據集預訓練的視覺變換器模型,通過引入卷積操作改進了傳統視覺變換器的性能。
圖像分類 Transformers
C
microsoft
27
0
Vit Base Patch16 384
Apache-2.0
Vision Transformer(ViT)是一種基於Transformer架構的圖像分類模型,先在ImageNet-21k上預訓練,後在ImageNet上微調。
圖像分類
V
google
30.30k
38
Swin Large Patch4 Window12 384
Apache-2.0
Swin Transformer是一種基於移位窗口的分層視覺Transformer模型,專為圖像分類任務設計。
圖像分類 Transformers
S
microsoft
22.77k
1
Swin Base Patch4 Window12 384 In22k
Apache-2.0
Swin Transformer是一種基於移位窗口的分層視覺Transformer模型,專為圖像分類任務設計。
圖像分類 Transformers
S
microsoft
2,431
1
Vit Large Patch32 384
Apache-2.0
該視覺Transformer(ViT)模型先在ImageNet-21k數據集上預訓練,後在ImageNet數據集上微調,適用於圖像分類任務。
圖像分類
V
google
118.37k
16
Vit Large Patch16 384
Apache-2.0
視覺變換器(ViT)是一種基於變換器架構的圖像分類模型,先在ImageNet-21k上預訓練,後在ImageNet上微調。
圖像分類
V
google
161.29k
12
Vit Base Patch32 384
Apache-2.0
Vision Transformer(ViT)是一種基於Transformer架構的圖像分類模型,通過在ImageNet-21k和ImageNet數據集上進行預訓練和微調,實現了高效的圖像識別能力。
圖像分類
V
google
24.92k
20
Beit Large Patch16 512
Apache-2.0
BEiT是一種基於視覺Transformer的圖像分類模型,通過自監督方式在ImageNet-21k上預訓練,並在ImageNet-1k上微調。
圖像分類
B
microsoft
683
11
Swin Large Patch4 Window12 384 In22k
Apache-2.0
Swin Transformer是一種基於分層窗口的視覺Transformer模型,在ImageNet-21k數據集上預訓練,適用於圖像分類任務。
圖像分類 Transformers
S
microsoft
1,063
7
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase