# 224x224解像度

Pvt Medium 224
Apache-2.0
PVTはTransformerベースの視覚モデルで、ピラミッド構造を使用して画像を処理し、ImageNet-1Kで事前学習されており、画像分類タスクに適しています。
画像分類 Transformers
P
Xrenya
13
0
Microsoft Resnet 152 Plant Seedling Classification
Apache-2.0
ResNet-152を微調整した植物の苗分類モデルで、テストセットでの精度は77.67%
画像分類 Transformers
M
uisikdag
30
0
Convnext Tiny Finetuned Cifar10
Apache-2.0
このモデルはConvNeXTアーキテクチャのミニバージョンで、cifar10データセットでファインチューニングされており、画像分類タスクに適しています。
画像分類 Transformers
C
ahsanjavid
2,014
1
Levit 128S
Apache-2.0
LeViT-128SはImageNet-1kデータセットで事前学習された視覚Transformerモデルで、畳み込みネットワークの利点を組み合わせてより高速な推論を実現しています。
画像分類 Transformers
L
facebook
3,198
4
Levit 384
Apache-2.0
LeViT-384はImageNet-1kデータセットで事前学習された視覚Transformerモデルで、畳み込みネットワークの利点を組み合わせてより高速な推論を実現しています。
画像分類 Transformers
L
facebook
37
0
Resnet 50
Apache-2.0
ResNet-50はImageNet-1kで事前学習された残差ネットワークモデルで、v1.5アーキテクチャの改良を採用し、画像分類タスクに適しています。
画像分類
R
microsoft
273.80k
407
Resnet 152
Apache-2.0
ImageNet-1kデータセットで事前学習された深層残差ネットワークモデル、画像分類タスク用
画像分類 Transformers
R
microsoft
18.22k
12
Vit Base Patch32 224 In21k
Apache-2.0
このビジュアルトランスフォーマー(ViT)モデルは、ImageNet-21kデータセットで224x224解像度で事前学習されており、画像分類タスクに適しています。
画像分類
V
google
35.10k
19
Convnext Xlarge 224 22k
Apache-2.0
ConvNeXTは純粋な畳み込みモデルで、その設計は視覚Transformerからインスピレーションを得ており、視覚Transformerよりも優れた性能を主張しています。このモデルはImageNet-22kデータセットで224x224解像度で学習されています。
画像分類 Transformers
C
facebook
2,135
1
Vit Large Patch32 224 In21k
Apache-2.0
このビジュアルTransformer(ViT)モデルは、ImageNet-21kデータセットで事前学習され、画像分類タスクに適しています。
画像分類
V
google
4,943
1
Convnext Base 224 22k
Apache-2.0
ConvNeXTは純粋な畳み込みモデルで、その設計は視覚Transformerからインスピレーションを得ており、視覚Transformerよりも優れた性能を主張しています。このモデルは224x224解像度でImageNet-22kデータセットを用いて学習されました。
画像分類 Transformers
C
facebook
1,797
6
Beit Large Patch16 224 Pt22k
Apache-2.0
BEiTはビジュアルTransformer(ViT)に基づく自己監督学習モデルで、ImageNet - 21kデータセットで事前学習され、画像分類タスクに使用されます。
画像分類
B
microsoft
237
2
Vit Huge Patch14 224 In21k
Apache-2.0
ImageNet-21kで事前学習されたビジュアルTransformerモデルで、超大サイズのアーキテクチャを採用し、画像分類などのビジュアルタスクに適しています。
画像分類
V
google
47.78k
20
Deit Base Distilled Patch16 224
Apache-2.0
蒸留版高効率データ画像Transformer(DeiT)モデルは、ImageNet-1kで224x224解像度で事前学習と微調整が行われ、蒸留学習によって教師モデルから知識を抽出します。
画像分類 Transformers
D
facebook
35.53k
26
Beit Large Patch16 224 Pt22k Ft22k
Apache-2.0
BEiTは視覚Transformer(ViT)ベースの画像分類モデルで、自己教師あり方式でImageNet-22kで事前学習され、同じデータセットでファインチューニングされています。
画像分類
B
microsoft
1,880
5
Vit Large Patch16 224 In21k
Apache-2.0
ImageNet-21kデータセットで事前学習されたVision Transformerモデルで、画像特徴抽出や下流タスクのファインチューニングに適しています。
画像分類
V
google
92.63k
26
Convnext Large 224
Apache-2.0
ConvNeXTは純粋な畳み込みモデルで、視覚Transformerからインスピレーションを得た設計で、ImageNet-1kデータセットで224x224解像度でトレーニングされました。
画像分類 Transformers
C
facebook
740
27
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase