Clip Vitl14 Test Time Registers
MIT
基于OpenCLIP-ViT-L-14模型,引入测试时寄存器技术,提升模型可解释性和下游任务性能
文本生成图像
Transformers

C
amildravid4292
236
0
Coco Instance Eomt Large 1280
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
PyTorch
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,揭示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
该论文提出了一种基于Vision Transformer (ViT) 的图像分割模型,揭示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
图像分割
A
tue-mps
116
0
Coco Panoptic Eomt Giant 640
MIT
该论文提出的模型揭示了Vision Transformer (ViT)在图像分割任务中的潜在能力。
图像分割
C
tue-mps
92
0
Coco Panoptic Eomt Large 1280
MIT
该论文提出了一种新的视角,将Vision Transformer (ViT) 视为图像分割模型,并探讨了其在图像分割任务中的潜力。
图像分割
PyTorch
C
tue-mps
119
0
Ade20k Semantic Eomt Large 512
MIT
该模型基于论文《你的ViT实际上是图像分割模型》开发,是一种用于图像分割任务的视觉Transformer模型。
图像分割
PyTorch
A
tue-mps
108
0
Cityscapes Semantic Eomt Large 1024
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定方法将ViT转化为高效的图像分割模型。
图像分割
PyTorch
C
tue-mps
85
0
Coco Panoptic Eomt Large 640
MIT
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
图像分割
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
图像分割
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
该模型通过重新思考Vision Transformer (ViT) 的架构,展示了其在图像分割任务中的潜力。
图像分割
PyTorch
C
tue-mps
90
0
Ai Vs Human Generated Image Detection
Apache-2.0
基于Vision Transformer (ViT)的图像分类模型,用于区分AI生成与人类创作的图像,准确率达98%。
图像分类
Transformers

A
dima806
148
2
Vitpose Plus Huge
Apache-2.0
ViTPose++是基于视觉Transformer的人体姿态估计基础模型,在MS COCO关键点测试集上达到81.1 AP的优异表现。
姿态估计
Transformers

V
usyd-community
14.49k
6
Vitpose Plus Large
Apache-2.0
ViTPose++是基于视觉Transformer的人体姿态估计基础模型,在MS COCO关键点测试集上达到81.1 AP的优异表现。
姿态估计
Transformers

V
usyd-community
1,731
1
Vitpose Plus Small
Apache-2.0
ViTPose++是基于视觉Transformer的人体姿态估计模型,在MS COCO关键点检测基准上达到81.1 AP的优异表现。
姿态估计
Transformers

V
usyd-community
30.02k
2
Vitpose Plus Base
Apache-2.0
ViTPose是一个基于视觉Transformer的人体姿态估计模型,采用简洁设计在MS COCO关键点检测基准上取得81.1 AP的优异表现。
姿态估计
Transformers 英语

V
usyd-community
22.26k
10
Vitpose Base Coco Aic Mpii
Apache-2.0
ViTPose是一个基于视觉Transformer的人体姿态估计模型,通过简单的架构设计在MS COCO等基准上取得了优异表现。
姿态估计
Transformers 英语

V
usyd-community
38
1
Vitpose Base
Apache-2.0
基于视觉Transformer的人体姿态估计模型,在MS COCO关键点测试集上达到81.1 AP的优异表现
姿态估计
Transformers 英语

V
usyd-community
761
9
Vitpose Base Simple
Apache-2.0
ViTPose是基于视觉Transformer的人体姿态估计模型,在MS COCO关键点测试集上达到81.1 AP的精度,具有模型简洁、规模可扩展、训练灵活等优势
姿态估计
Transformers 英语

V
usyd-community
51.40k
20
Aimv2 3b Patch14 448.apple Pt
AIM-v2是一个基于timm库的图像编码器模型,具有3B参数规模,适用于图像特征提取任务。
图像分类
Transformers

A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2是一个基于timm库的图像编码器模型,适用于图像特征提取任务。
图像分类
Transformers

A
timm
35
0
Dinov2 With Registers Giant
Apache-2.0
这是一个基于DINOv2的视觉Transformer模型,通过添加寄存器标记改进了注意力机制,用于无监督图像特征提取。
图像分类
Transformers

D
facebook
9,811
6
Vitpose Base Simple
Apache-2.0
ViTPose是基于普通视觉Transformer的人体姿态估计基线模型,通过简洁架构实现高性能关键点检测
姿态估计
Transformers 英语

V
danelcsb
20
1
Vit Base Patch16 Clip 224.metaclip 2pt5b
基于MetaCLIP-2.5B数据集训练的双框架兼容视觉模型,支持OpenCLIP和timm框架
图像分类
V
timm
889
1
Vit Base Patch16 Clip 224.metaclip 400m
基于MetaCLIP-400M数据集训练的双框架兼容视觉模型,支持OpenCLIP和timm框架
图像分类
V
timm
1,206
1
Hair Type Image Detection
Apache-2.0
基于Google Vision Transformer (ViT)架构的图像分类模型,专门用于从面部图像中识别五种发型类型(卷发、脏辫、扭结发、直发、波浪发),准确率达93%。
图像分类
H
dima806
143
2
Sapiens Depth 0.3b Bfloat16
Sapiens是一个在3亿张1024x1024分辨率的人类图像上预训练的视觉变换器系列模型,专注于以人为中心的视觉任务。
3D视觉 英语
S
facebook
22
0
Sapiens Seg 1b Bfloat16
Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型,专注于以人为中心的视觉任务
图像分割 英语
S
facebook
42
0
Sapiens Pretrain 1b Bfloat16
Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型,支持高分辨率推理和真实场景泛化。
图像分类 英语
S
facebook
23
0
Sapiens Depth 0.3b
智人(Sapiens)是基于3亿张高分辨率人类图像预训练的视觉Transformer模型,专注于以人为中心的视觉任务。
3D视觉 英语
S
facebook
24
0
Sapiens Depth 0.6b
Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族,专注于以人为中心的视觉任务。
3D视觉 英语
S
facebook
19
1
Sapiens Seg 1b
Sapiens是基于3亿张人类图像预训练的视觉Transformer模型,专注于以人为中心的分割任务,支持1K高分辨率推理。
图像分割 英语
S
facebook
146
4
Sapiens Pretrain 0.6b
Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型,擅长以人为中心的视觉任务。
图像分类 英语
S
facebook
13
0
Sapiens Seg 0.6b Torchscript
Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族,专注于以人为中心的视觉任务。
图像分割 英语
S
facebook
25
0
Mast3r ViTLarge BaseDecoder 512 Catmlpdpt Metric
MASt3R是一个基于ViT架构的图像转3D模型,能够实现图像与3D空间的匹配
3D视觉
M
naver
116.60k
15
Indian Sign Language Classification
Apache-2.0
基于Google Vision Transformer (ViT)架构微调的印度手语图像分类模型,准确率达99.05%
图像分类
Transformers

I
Hemg
167
5
Skin Types Image Detection
Apache-2.0
使用Vision Transformer (ViT)架构的面部图像分类模型,用于检测干性、中性、油性三种皮肤类型
图像分类
Transformers

S
dima806
776
11
Depth Anything Vitb14
Depth Anything 是一个基于大规模无标签数据训练的深度估计模型,能够从单张图像中预测深度信息。
3D视觉
Transformers

D
LiheYoung
7,152
3
- 1
- 2
- 3
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98