# ViTバックボーンネットワーク

Checkpoint Aerial Mast3r
AerialMegaDepthは航空写真からの3Dシーン再構築と新規視点生成に特化した深層学習モデルです。
3Dビジョン
C
kvuong2711
15
0
Dpt Large Ade20k
MIT
Transformerアーキテクチャに基づくセマンティックセグメンテーションモデルで、ADE20Kデータセットに最適化されています
画像セグメンテーション Safetensors
D
smp-hub
279
0
Vit Large Patch16 224.orig In21k
Apache-2.0
Vision Transformer(ViT)ベースの画像分類モデルで、Google ResearchがJAXフレームワークでImageNet-21kで事前学習後、PyTorchに移植。特徴抽出やファインチューニングに適しています。
画像分類 Transformers
V
timm
584
2
Vit Base Patch32 224.orig In21k
Apache-2.0
Vision Transformer (ViT)ベースの画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングのシナリオに適しています。
画像分類 Transformers
V
timm
438
0
Vit Base Patch16 224.orig In21k
Apache-2.0
Vision Transformerに基づく画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングに適しています
画像分類 Transformers
V
timm
23.07k
1
Samvit Huge Patch16.sa1b
Apache-2.0
Segment-Anythingビジョントランスフォーマー(SAM ViT)画像特徴モデル、特徴抽出とファインチューニング機能のみを含み、セグメンテーションヘッドは含まれません。
画像セグメンテーション Transformers
S
timm
131
1
Samvit Base Patch16.sa1b
Apache-2.0
Segment-Anythingビジュアルトランスフォーマー(SAM ViT)画像特徴モデル、特徴抽出とファインチューニング機能のみを含み、分割ヘッドは含まれません。
画像セグメンテーション Transformers
S
timm
2,756
1
Vit Base Patch14 Dinov2.lvd142m
Apache-2.0
Vision Transformer(ViT)ベースの画像特徴モデル、自己教師ありDINOv2手法でLVD-142Mデータセット上で事前学習済み
画像分類 Transformers
V
timm
50.71k
4
Vit Base Patch16 224.mae
Vision Transformer(ViT)ベースの画像特徴抽出モデル。自己教師ありマスク自己エンコーダ(MAE)手法を用いてImageNet-1kデータセットで事前学習済み
画像分類 Transformers
V
timm
23.63k
2
Owlvit Base Patch16
Apache-2.0
OWL-ViTはゼロショットテキスト条件付き物体検出モデルで、テキストクエリを使用して画像内の物体を検出できます。
テキスト生成画像 Transformers
O
google
4,588
12
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase