# ImageNet-21k事前学習

Vit Large Patch16 224.orig In21k
Apache-2.0
Vision Transformer(ViT)ベースの画像分類モデルで、Google ResearchがJAXフレームワークでImageNet-21kで事前学習後、PyTorchに移植。特徴抽出やファインチューニングに適しています。
画像分類 Transformers
V
timm
584
2
Vit Base Patch16 224.orig In21k
Apache-2.0
Vision Transformerに基づく画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングに適しています
画像分類 Transformers
V
timm
23.07k
1
Vit Base R50 S16 224.orig In21k
Apache-2.0
ResNetとVision Transformerを組み合わせたハイブリッド画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングに適しています。
画像分類 Transformers
V
timm
876
0
Vit Large Patch32 224.orig In21k
Apache-2.0
Vision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、ImageNet-21kデータセットで事前学習されており、特徴抽出やファインチューニングのシナリオに適しています。
画像分類 Transformers
V
timm
771
0
Vit Huge Patch14 224.orig In21k
Apache-2.0
Vision Transformer (ViT)アーキテクチャに基づく大規模画像特徴抽出モデルで、ImageNet-21kデータセットで事前学習済み
画像分類 Transformers
V
timm
3,214
2
Swinv2 Large Patch4 Window12 192 22k
Apache-2.0
Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意メカニズムにより、効率的な画像分類と密な認識タスクを実現する視覚Transformerモデルです。
画像分類 Transformers
S
microsoft
3,816
10
Swin Base Patch4 Window12 384 In22k
Apache-2.0
Swin Transformerはシフトウィンドウに基づく階層型視覚Transformerモデルで、画像分類タスク向けに設計されています。
画像分類 Transformers
S
microsoft
2,431
1
Vit Base Patch32 224 In21k
Apache-2.0
このビジュアルトランスフォーマー(ViT)モデルは、ImageNet-21kデータセットで224x224解像度で事前学習されており、画像分類タスクに適しています。
画像分類
V
google
35.10k
19
Vit Large Patch32 224 In21k
Apache-2.0
このビジュアルTransformer(ViT)モデルは、ImageNet-21kデータセットで事前学習され、画像分類タスクに適しています。
画像分類
V
google
4,943
1
Vit Large Patch16 224 In21k
Apache-2.0
ImageNet-21kデータセットで事前学習されたVision Transformerモデルで、画像特徴抽出や下流タスクのファインチューニングに適しています。
画像分類
V
google
92.63k
26
Swin Large Patch4 Window7 224 In22k
Apache-2.0
Swin Transformerは移動ウィンドウに基づく階層型視覚Transformerで、ImageNet-21kデータセットで事前学習されており、画像分類タスクに適しています。
画像分類 Transformers
S
microsoft
387
2
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase