Clip Vitl14 Test Time Registers
MIT
基於OpenCLIP-ViT-L-14模型,引入測試時寄存器技術,提升模型可解釋性和下游任務性能
文本生成圖像
Transformers

C
amildravid4292
236
0
Coco Instance Eomt Large 1280
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
圖像分割
PyTorch
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,揭示了ViT在圖像分割任務中的潛力。
圖像分割
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
該論文提出了一種基於Vision Transformer (ViT) 的圖像分割模型,揭示了ViT在圖像分割任務中的潛力。
圖像分割
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
圖像分割
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力,通過特定架構調整使其適用於分割任務。
圖像分割
A
tue-mps
116
0
Coco Panoptic Eomt Giant 640
MIT
該論文提出的模型揭示了Vision Transformer (ViT)在圖像分割任務中的潛在能力。
圖像分割
C
tue-mps
92
0
Coco Panoptic Eomt Large 1280
MIT
該論文提出了一種新的視角,將Vision Transformer (ViT) 視為圖像分割模型,並探討了其在圖像分割任務中的潛力。
圖像分割
PyTorch
C
tue-mps
119
0
Ade20k Semantic Eomt Large 512
MIT
該模型基於論文《你的ViT實際上是圖像分割模型》開發,是一種用於圖像分割任務的視覺Transformer模型。
圖像分割
PyTorch
A
tue-mps
108
0
Cityscapes Semantic Eomt Large 1024
MIT
該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力,通過特定方法將ViT轉化為高效的圖像分割模型。
圖像分割
PyTorch
C
tue-mps
85
0
Coco Panoptic Eomt Large 640
MIT
該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力,通過特定架構調整使其適用於分割任務。
圖像分割
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
圖像分割
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
該模型通過重新思考Vision Transformer (ViT) 的架構,展示了其在圖像分割任務中的潛力。
圖像分割
PyTorch
C
tue-mps
90
0
Ai Vs Human Generated Image Detection
Apache-2.0
基於Vision Transformer (ViT)的圖像分類模型,用於區分AI生成與人類創作的圖像,準確率達98%。
圖像分類
Transformers

A
dima806
148
2
Vitpose Plus Huge
Apache-2.0
ViTPose++是基於視覺Transformer的人體姿態估計基礎模型,在MS COCO關鍵點測試集上達到81.1 AP的優異表現。
姿態估計
Transformers

V
usyd-community
14.49k
6
Vitpose Plus Large
Apache-2.0
ViTPose++是基於視覺Transformer的人體姿態估計基礎模型,在MS COCO關鍵點測試集上達到81.1 AP的優異表現。
姿態估計
Transformers

V
usyd-community
1,731
1
Vitpose Plus Small
Apache-2.0
ViTPose++是基於視覺Transformer的人體姿態估計模型,在MS COCO關鍵點檢測基準上達到81.1 AP的優異表現。
姿態估計
Transformers

V
usyd-community
30.02k
2
Vitpose Plus Base
Apache-2.0
ViTPose是一個基於視覺Transformer的人體姿態估計模型,採用簡潔設計在MS COCO關鍵點檢測基準上取得81.1 AP的優異表現。
姿態估計
Transformers 英語

V
usyd-community
22.26k
10
Vitpose Base Coco Aic Mpii
Apache-2.0
ViTPose是一個基於視覺Transformer的人體姿態估計模型,通過簡單的架構設計在MS COCO等基準上取得了優異表現。
姿態估計
Transformers 英語

V
usyd-community
38
1
Vitpose Base
Apache-2.0
基於視覺Transformer的人體姿態估計模型,在MS COCO關鍵點測試集上達到81.1 AP的優異表現
姿態估計
Transformers 英語

V
usyd-community
761
9
Vitpose Base Simple
Apache-2.0
ViTPose是基於視覺Transformer的人體姿態估計模型,在MS COCO關鍵點測試集上達到81.1 AP的精度,具有模型簡潔、規模可擴展、訓練靈活等優勢
姿態估計
Transformers 英語

V
usyd-community
51.40k
20
Aimv2 3b Patch14 448.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,具有3B參數規模,適用於圖像特徵提取任務。
圖像分類
Transformers

A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,適用於圖像特徵提取任務。
圖像分類
Transformers

A
timm
35
0
Dinov2 With Registers Giant
Apache-2.0
這是一個基於DINOv2的視覺Transformer模型,通過添加寄存器標記改進了注意力機制,用於無監督圖像特徵提取。
圖像分類
Transformers

D
facebook
9,811
6
Vitpose Base Simple
Apache-2.0
ViTPose是基於普通視覺Transformer的人體姿態估計基線模型,通過簡潔架構實現高性能關鍵點檢測
姿態估計
Transformers 英語

V
danelcsb
20
1
Vit Base Patch16 Clip 224.metaclip 2pt5b
基於MetaCLIP-2.5B數據集訓練的雙框架兼容視覺模型,支持OpenCLIP和timm框架
圖像分類
V
timm
889
1
Vit Base Patch16 Clip 224.metaclip 400m
基於MetaCLIP-400M數據集訓練的雙框架兼容視覺模型,支持OpenCLIP和timm框架
圖像分類
V
timm
1,206
1
Hair Type Image Detection
Apache-2.0
基於Google Vision Transformer (ViT)架構的圖像分類模型,專門用於從面部圖像中識別五種髮型類型(捲髮、髒辮、扭結髮、直髮、波浪發),準確率達93%。
圖像分類
H
dima806
143
2
Sapiens Depth 0.3b Bfloat16
Sapiens是一個在3億張1024x1024分辨率的人類圖像上預訓練的視覺變換器系列模型,專注於以人為中心的視覺任務。
3D視覺 英語
S
facebook
22
0
Sapiens Seg 1b Bfloat16
Sapiens是基於3億張高分辨率人類圖像預訓練的視覺Transformer模型,專注於以人為中心的視覺任務
圖像分割 英語
S
facebook
42
0
Sapiens Pretrain 1b Bfloat16
Sapiens是基於3億張1024×1024分辨率人體圖像預訓練的視覺Transformer模型,支持高分辨率推理和真實場景泛化。
圖像分類 英語
S
facebook
23
0
Sapiens Depth 0.3b
智人(Sapiens)是基於3億張高分辨率人類圖像預訓練的視覺Transformer模型,專注於以人為中心的視覺任務。
3D視覺 英語
S
facebook
24
0
Sapiens Depth 0.6b
Sapiens是一個基於3億張1024x1024分辨率人類圖像預訓練的視覺Transformer模型家族,專注於以人為中心的視覺任務。
3D視覺 英語
S
facebook
19
1
Sapiens Seg 1b
Sapiens是基於3億張人類圖像預訓練的視覺Transformer模型,專注於以人為中心的分割任務,支持1K高分辨率推理。
圖像分割 英語
S
facebook
146
4
Sapiens Pretrain 0.6b
Sapiens是基於3億張1024×1024分辨率人體圖像預訓練的視覺Transformer模型,擅長以人為中心的視覺任務。
圖像分類 英語
S
facebook
13
0
Sapiens Seg 0.6b Torchscript
Sapiens是一個基於3億張1024x1024分辨率人類圖像預訓練的視覺Transformer模型家族,專注於以人為中心的視覺任務。
圖像分割 英語
S
facebook
25
0
Mast3r ViTLarge BaseDecoder 512 Catmlpdpt Metric
MASt3R是一個基於ViT架構的圖像轉3D模型,能夠實現圖像與3D空間的匹配
3D視覺
M
naver
116.60k
15
Indian Sign Language Classification
Apache-2.0
基於Google Vision Transformer (ViT)架構微調的印度手語圖像分類模型,準確率達99.05%
圖像分類
Transformers

I
Hemg
167
5
Skin Types Image Detection
Apache-2.0
使用Vision Transformer (ViT)架構的面部圖像分類模型,用於檢測乾性、中性、油性三種皮膚類型
圖像分類
Transformers

S
dima806
776
11
Depth Anything Vitb14
Depth Anything 是一個基於大規模無標籤數據訓練的深度估計模型,能夠從單張圖像中預測深度信息。
3D視覺
Transformers

D
LiheYoung
7,152
3
- 1
- 2
- 3
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98