# ViT骨幹網絡

Checkpoint Aerial Mast3r
AerialMegaDepth是一個專注於空地重建與視角合成的深度學習模型,能夠從航拍圖像中重建3D場景並生成新視角。
3D視覺
C
kvuong2711
15
0
Dpt Large Ade20k
MIT
基於Transformer架構的語義分割模型,專為ADE20K數據集優化
圖像分割
D
smp-hub
279
0
Vit Large Patch16 224.orig In21k
Apache-2.0
基於Vision Transformer(ViT)的圖像分類模型,由Google Research在JAX框架下使用ImageNet-21k預訓練,後移植到PyTorch。適用於特徵提取和微調場景。
圖像分類 Transformers
V
timm
584
2
Vit Base Patch32 224.orig In21k
Apache-2.0
基於Vision Transformer (ViT)的圖像分類模型,在ImageNet-21k上預訓練,適用於特徵提取和微調場景。
圖像分類 Transformers
V
timm
438
0
Vit Base Patch16 224.orig In21k
Apache-2.0
基於Vision Transformer的圖像分類模型,在ImageNet-21k上預訓練,適用於特徵提取和微調
圖像分類 Transformers
V
timm
23.07k
1
Samvit Huge Patch16.sa1b
Apache-2.0
Segment-Anything視覺變換器(SAM ViT)圖像特徵模型,僅包含特徵提取和微調功能,不包含分割頭。
圖像分割 Transformers
S
timm
131
1
Samvit Base Patch16.sa1b
Apache-2.0
Segment-Anything視覺變換器(SAM ViT)圖像特徵模型,僅包含特徵提取和微調功能,不包含分割頭。
圖像分割 Transformers
S
timm
2,756
1
Vit Base Patch14 Dinov2.lvd142m
Apache-2.0
基於Vision Transformer(ViT)的圖像特徵模型,採用自監督DINOv2方法在LVD-142M數據集上預訓練
圖像分類 Transformers
V
timm
50.71k
4
Owlvit Base Patch16
Apache-2.0
OWL-ViT是一個零樣本文本條件目標檢測模型,可通過文本查詢在圖像中檢測物體。
文本生成圖像 Transformers
O
google
4,588
12
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase