# 視覚Transformer

Coco Panoptic Eomt Giant 640
MIT
この論文が提案するモデルは、Vision Transformer (ViT)が画像セグメンテーションタスクで持つ潜在能力を明らかにしています。
画像セグメンテーション
C
tue-mps
92
0
Ade20k Semantic Eomt Large 512
MIT
このモデルは論文『あなたのViTは実際には画像セグメンテーションモデル』に基づいて開発され、画像セグメンテーションタスクのための視覚Transformerモデルです。
画像セグメンテーション
A
tue-mps
108
0
Cityscapes Semantic Eomt Large 1024
MIT
このモデルはVision Transformer (ViT)が画像分割タスクで持つ可能性を明らかにし、特定の方法でViTを効率的な画像分割モデルに変換します。
画像セグメンテーション PyTorch
C
tue-mps
85
0
Vitpose Plus Base
Apache-2.0
ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、シンプルな設計によりMS COCOキーポイント検出ベンチマークで81.1 APの優れた性能を達成しました。
姿勢推定 Transformers 英語
V
usyd-community
22.26k
10
Vitpose Base Simple
Apache-2.0
ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、MS COCOキーポイントテストセットで81.1 APの精度を達成し、モデルの簡潔さ、スケーラビリティ、トレーニングの柔軟性などの利点があります
姿勢推定 Transformers 英語
V
usyd-community
51.40k
20
Aimv2 3b Patch14 448.apple Pt
AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、3Bパラメータ規模を持ち、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2はtimmライブラリに基づく画像エンコーダーモデルで、画像特徴抽出タスクに適しています。
画像分類 Transformers
A
timm
35
0
Dinov2 With Registers Giant
Apache-2.0
これはDINOv2ベースの視覚Transformerモデルで、レジスタトークンを追加することでアテンション機構を改良し、教師なし画像特徴抽出に使用されます。
画像分類 Transformers
D
facebook
9,811
6
Vit Base Patch16 Clip 224.metaclip 400m
MetaCLIP-400Mデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート
画像分類
V
timm
1,206
1
Sapiens Depth 0.3b
智人(Sapiens)は30億枚の高解像度人間画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスクに特化しています。
3Dビジョン 英語
S
facebook
24
0
Sapiens Depth 0.6b
Sapiensは3億枚の1024x1024解像度の人間画像で事前学習された視覚Transformerモデルファミリーで、人間中心の視覚タスクに特化しています。
3Dビジョン 英語
S
facebook
19
1
Sapiens Pretrain 0.6b
Sapiensは3億枚の1024×1024解像度人体画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスクに優れています。
画像分類 英語
S
facebook
13
0
Sapiens Seg 0.6b Torchscript
Sapiensは3億枚の1024x1024解像度の人間画像で事前学習された視覚Transformerモデルファミリーで、人間中心の視覚タスクに特化しています。
画像セグメンテーション 英語
S
facebook
25
0
Indian Sign Language Classification
Apache-2.0
Google Vision Transformer (ViT)アーキテクチャを基にファインチューニングしたインド手話画像分類モデルで、精度は99.05%
画像分類 Transformers
I
Hemg
167
5
75 Butterfly Types Image Detection
Apache-2.0
Vision Transformerアーキテクチャに基づく蝶画像分類モデル。75種の蝶を識別可能で、精度は96.74%
画像分類 Transformers
7
dima806
27
2
Aesthetic Shadow
美学シャドウは11億パラメータを持つ視覚Transformerモデルで、アニメ画像の品質評価のために設計されました。
画像分類 Transformers
A
shadowlilac
373
26
Eva02 Large Patch14 224.mim M38m
MIT
EVA02特徴/表現モデル、マスク画像モデリングによりMerged-38Mデータセットで事前学習済み、画像分類と特徴抽出タスクに適しています。
画像分類 Transformers
E
timm
571
0
My Food Classifier
Apache-2.0
google/vit-base-patch16-224-in21kをファインチューニングした食品分類モデルで、評価データセットで優れた性能を発揮
画像分類 Transformers
M
MariaK
25
0
Efficientformer L1 300
Apache-2.0
EfficientFormer-L1はSnap Researchが開発した視覚Transformerモデルで、モバイルデバイス向けに最適化されており、高性能を維持しながら極めて低い遅延を実現します。
画像分類 英語
E
snap-research
513
3
Vit Msn Large 7
Apache-2.0
この視覚TransformerモデルはMSN手法で事前学習されており、少数ショットシナリオで優れた性能を発揮し、画像分類などのタスクに適しています
画像分類 Transformers
V
facebook
67
2
Vit Msn Base 4
Apache-2.0
この視覚TransformerモデルはMSN手法で事前学習されており、少数ショットシナリオで優れた性能を発揮し、画像分類などのタスクに適しています
画像分類 Transformers
V
facebook
62
1
Vit Msn Large
Apache-2.0
MSN手法で事前学習された視覚Transformerモデルで、少数ショットシナリオで優れた性能を発揮
画像分類 Transformers
V
facebook
48
1
Vit Msn Small
Apache-2.0
この視覚TransformerモデルはMSN手法で事前学習されており、少数ショット学習シナリオに適しており、特に画像分類タスクに最適です。
画像分類 Transformers
V
facebook
3,755
1
Vit Base Patch16 384 Wi5
Apache-2.0
このモデルはgoogle/vit-base-patch16-384をファインチューニングした視覚Transformerモデルで、主に画像分類タスクに使用されます。
画像分類 Transformers
V
Imene
21
0
Swinv2 Large Patch4 Window12 192 22k
Apache-2.0
Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意メカニズムにより、効率的な画像分類と密な認識タスクを実現する視覚Transformerモデルです。
画像分類 Transformers
S
microsoft
3,816
10
Yolos Small
Apache-2.0
視覚Transformer(ViT)ベースの物体検出モデルで、DETR損失関数を使用して訓練され、COCOデータセットで優れた性能を発揮します。
物体検出 Transformers
Y
hustvl
154.46k
63
Deit Base Distilled Patch16 384
Apache-2.0
蒸留版視覚Transformerモデル、最初に224x224解像度で事前学習し、その後384x384解像度でImageNet-1k上でファインチューニング、教師モデルから蒸留トークンを通じて学習。
画像分類 Transformers
D
facebook
1,824
5
Deit FaceMask Finetuned
Apache-2.0
Face-Mask18Kデータセットで訓練された蒸留型視覚Transformerモデル、効率的なマスク検出用
画像分類 Transformers
D
AkshatSurolia
27
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase