# 视觉Transformer

Clip Vitl14 Test Time Registers
MIT
基于OpenCLIP-ViT-L-14模型,引入测试时寄存器技术,提升模型可解释性和下游任务性能
文本生成图像 Transformers
C
amildravid4292
236
0
Coco Instance Eomt Large 1280
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割 PyTorch
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,揭示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
该论文提出了一种基于Vision Transformer (ViT) 的图像分割模型,揭示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
图像分割
A
tue-mps
116
0
Coco Panoptic Eomt Giant 640
MIT
该论文提出的模型揭示了Vision Transformer (ViT)在图像分割任务中的潜在能力。
图像分割
C
tue-mps
92
0
Coco Panoptic Eomt Large 1280
MIT
该论文提出了一种新的视角,将Vision Transformer (ViT) 视为图像分割模型,并探讨了其在图像分割任务中的潜力。
图像分割 PyTorch
C
tue-mps
119
0
Ade20k Semantic Eomt Large 512
MIT
该模型基于论文《你的ViT实际上是图像分割模型》开发,是一种用于图像分割任务的视觉Transformer模型。
图像分割 PyTorch
A
tue-mps
108
0
Cityscapes Semantic Eomt Large 1024
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定方法将ViT转化为高效的图像分割模型。
图像分割 PyTorch
C
tue-mps
85
0
Coco Panoptic Eomt Large 640
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
图像分割
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
该模型通过重新思考Vision Transformer (ViT) 的架构,展示了其在图像分割任务中的潜力。
图像分割 PyTorch
C
tue-mps
90
0
Ai Vs Human Generated Image Detection
Apache-2.0
基于Vision Transformer (ViT)的图像分类模型,用于区分AI生成与人类创作的图像,准确率达98%。
图像分类 Transformers
A
dima806
148
2
Vitpose Plus Huge
Apache-2.0
ViTPose++是基于视觉Transformer的人体姿态估计基础模型,在MS COCO关键点测试集上达到81.1 AP的优异表现。
姿态估计 Transformers
V
usyd-community
14.49k
6
Vitpose Plus Large
Apache-2.0
ViTPose++是基于视觉Transformer的人体姿态估计基础模型,在MS COCO关键点测试集上达到81.1 AP的优异表现。
姿态估计 Transformers
V
usyd-community
1,731
1
Vitpose Plus Small
Apache-2.0
ViTPose++是基于视觉Transformer的人体姿态估计模型,在MS COCO关键点检测基准上达到81.1 AP的优异表现。
姿态估计 Transformers
V
usyd-community
30.02k
2
Vitpose Plus Base
Apache-2.0
ViTPose是一个基于视觉Transformer的人体姿态估计模型,采用简洁设计在MS COCO关键点检测基准上取得81.1 AP的优异表现。
姿态估计 Transformers 英语
V
usyd-community
22.26k
10
Vitpose Base Coco Aic Mpii
Apache-2.0
ViTPose是一个基于视觉Transformer的人体姿态估计模型,通过简单的架构设计在MS COCO等基准上取得了优异表现。
姿态估计 Transformers 英语
V
usyd-community
38
1
Vitpose Base
Apache-2.0
基于视觉Transformer的人体姿态估计模型,在MS COCO关键点测试集上达到81.1 AP的优异表现
姿态估计 Transformers 英语
V
usyd-community
761
9
Vitpose Base Simple
Apache-2.0
ViTPose是基于视觉Transformer的人体姿态估计模型,在MS COCO关键点测试集上达到81.1 AP的精度,具有模型简洁、规模可扩展、训练灵活等优势
姿态估计 Transformers 英语
V
usyd-community
51.40k
20
Aimv2 3b Patch14 448.apple Pt
AIM-v2是一个基于timm库的图像编码器模型,具有3B参数规模,适用于图像特征提取任务。
图像分类 Transformers
A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2是一个基于timm库的图像编码器模型,适用于图像特征提取任务。
图像分类 Transformers
A
timm
35
0
Dinov2 With Registers Giant
Apache-2.0
这是一个基于DINOv2的视觉Transformer模型,通过添加寄存器标记改进了注意力机制,用于无监督图像特征提取。
图像分类 Transformers
D
facebook
9,811
6
Vitpose Base Simple
Apache-2.0
ViTPose是基于普通视觉Transformer的人体姿态估计基线模型,通过简洁架构实现高性能关键点检测
姿态估计 Transformers 英语
V
danelcsb
20
1
Vit Base Patch16 Clip 224.metaclip 2pt5b
基于MetaCLIP-2.5B数据集训练的双框架兼容视觉模型,支持OpenCLIP和timm框架
图像分类
V
timm
889
1
Vit Base Patch16 Clip 224.metaclip 400m
基于MetaCLIP-400M数据集训练的双框架兼容视觉模型,支持OpenCLIP和timm框架
图像分类
V
timm
1,206
1
Hair Type Image Detection
Apache-2.0
基于Google Vision Transformer (ViT)架构的图像分类模型,专门用于从面部图像中识别五种发型类型(卷发、脏辫、扭结发、直发、波浪发),准确率达93%。
图像分类
H
dima806
143
2
Sapiens Depth 0.3b Bfloat16
Sapiens是一个在3亿张1024x1024分辨率的人类图像上预训练的视觉变换器系列模型,专注于以人为中心的视觉任务。
3D视觉 英语
S
facebook
22
0
Sapiens Seg 1b Bfloat16
Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型,专注于以人为中心的视觉任务
图像分割 英语
S
facebook
42
0
Sapiens Pretrain 1b Bfloat16
Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型,支持高分辨率推理和真实场景泛化。
图像分类 英语
S
facebook
23
0
Sapiens Depth 0.3b
智人(Sapiens)是基于3亿张高分辨率人类图像预训练的视觉Transformer模型,专注于以人为中心的视觉任务。
3D视觉 英语
S
facebook
24
0
Sapiens Depth 0.6b
Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族,专注于以人为中心的视觉任务。
3D视觉 英语
S
facebook
19
1
Sapiens Seg 1b
Sapiens是基于3亿张人类图像预训练的视觉Transformer模型,专注于以人为中心的分割任务,支持1K高分辨率推理。
图像分割 英语
S
facebook
146
4
Sapiens Pretrain 0.6b
Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型,擅长以人为中心的视觉任务。
图像分类 英语
S
facebook
13
0
Sapiens Seg 0.6b Torchscript
Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族,专注于以人为中心的视觉任务。
图像分割 英语
S
facebook
25
0
Mast3r ViTLarge BaseDecoder 512 Catmlpdpt Metric
MASt3R是一个基于ViT架构的图像转3D模型,能够实现图像与3D空间的匹配
3D视觉
M
naver
116.60k
15
Indian Sign Language Classification
Apache-2.0
基于Google Vision Transformer (ViT)架构微调的印度手语图像分类模型,准确率达99.05%
图像分类 Transformers
I
Hemg
167
5
Skin Types Image Detection
Apache-2.0
使用Vision Transformer (ViT)架构的面部图像分类模型,用于检测干性、中性、油性三种皮肤类型
图像分类 Transformers
S
dima806
776
11
Depth Anything Vitb14
Depth Anything 是一个基于大规模无标签数据训练的深度估计模型,能够从单张图像中预测深度信息。
3D视觉 Transformers
D
LiheYoung
7,152
3
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase