视觉Transformer

# 视觉Transformer

Clip Vitl14 Test Time Registers

基于OpenCLIP-ViT-L-14模型，引入测试时寄存器技术，提升模型可解释性和下游任务性能

文本生成图像

Coco Instance Eomt Large 1280

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，展示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Giant 1280

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，揭示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Large 1280

该论文提出了一种基于Vision Transformer (ViT) 的图像分割模型，揭示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Large 640

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，展示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Giant 640

该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力，通过特定架构调整使其适用于分割任务。

Coco Panoptic Eomt Giant 640

该论文提出的模型揭示了Vision Transformer (ViT)在图像分割任务中的潜在能力。

Coco Panoptic Eomt Large 1280

该论文提出了一种新的视角，将Vision Transformer (ViT) 视为图像分割模型，并探讨了其在图像分割任务中的潜力。

Ade20k Semantic Eomt Large 512

该模型基于论文《你的ViT实际上是图像分割模型》开发，是一种用于图像分割任务的视觉Transformer模型。

Cityscapes Semantic Eomt Large 1024

该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力，通过特定方法将ViT转化为高效的图像分割模型。

Coco Panoptic Eomt Large 640

该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力，通过特定架构调整使其适用于分割任务。

Coco Instance Eomt Large 640

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，展示了ViT在图像分割任务中的潜力。

Coco Panoptic Eomt Giant 1280

该模型通过重新思考Vision Transformer (ViT) 的架构，展示了其在图像分割任务中的潜力。

Ai Vs Human Generated Image Detection

基于Vision Transformer (ViT)的图像分类模型，用于区分AI生成与人类创作的图像，准确率达98%。

Vitpose Plus Huge

ViTPose++是基于视觉Transformer的人体姿态估计基础模型，在MS COCO关键点测试集上达到81.1 AP的优异表现。

Vitpose Plus Large

ViTPose++是基于视觉Transformer的人体姿态估计基础模型，在MS COCO关键点测试集上达到81.1 AP的优异表现。

Vitpose Plus Small

ViTPose++是基于视觉Transformer的人体姿态估计模型，在MS COCO关键点检测基准上达到81.1 AP的优异表现。

Vitpose Plus Base

ViTPose是一个基于视觉Transformer的人体姿态估计模型，采用简洁设计在MS COCO关键点检测基准上取得81.1 AP的优异表现。

Transformers 英语

Vitpose Base Coco Aic Mpii

ViTPose是一个基于视觉Transformer的人体姿态估计模型，通过简单的架构设计在MS COCO等基准上取得了优异表现。

Transformers 英语

基于视觉Transformer的人体姿态估计模型，在MS COCO关键点测试集上达到81.1 AP的优异表现

Transformers 英语

Vitpose Base Simple

ViTPose是基于视觉Transformer的人体姿态估计模型，在MS COCO关键点测试集上达到81.1 AP的精度，具有模型简洁、规模可扩展、训练灵活等优势

Transformers 英语

Aimv2 3b Patch14 448.apple Pt

AIM-v2是一个基于timm库的图像编码器模型，具有3B参数规模，适用于图像特征提取任务。

Aimv2 3b Patch14 336.apple Pt

AIM-v2是一个基于timm库的图像编码器模型，适用于图像特征提取任务。

Dinov2 With Registers Giant

这是一个基于DINOv2的视觉Transformer模型，通过添加寄存器标记改进了注意力机制，用于无监督图像特征提取。

Vitpose Base Simple

ViTPose是基于普通视觉Transformer的人体姿态估计基线模型，通过简洁架构实现高性能关键点检测

Transformers 英语

Vit Base Patch16 Clip 224.metaclip 2pt5b

基于MetaCLIP-2.5B数据集训练的双框架兼容视觉模型，支持OpenCLIP和timm框架

Vit Base Patch16 Clip 224.metaclip 400m

基于MetaCLIP-400M数据集训练的双框架兼容视觉模型，支持OpenCLIP和timm框架

Hair Type Image Detection

基于Google Vision Transformer (ViT)架构的图像分类模型，专门用于从面部图像中识别五种发型类型（卷发、脏辫、扭结发、直发、波浪发），准确率达93%。

Sapiens Depth 0.3b Bfloat16

Sapiens是一个在3亿张1024x1024分辨率的人类图像上预训练的视觉变换器系列模型，专注于以人为中心的视觉任务。

Sapiens Seg 1b Bfloat16

Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专注于以人为中心的视觉任务

图像分割英语

Sapiens Pretrain 1b Bfloat16

Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型，支持高分辨率推理和真实场景泛化。

图像分类英语

Sapiens Depth 0.3b

智人（Sapiens）是基于3亿张高分辨率人类图像预训练的视觉Transformer模型，专注于以人为中心的视觉任务。

Sapiens Depth 0.6b

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

Sapiens是基于3亿张人类图像预训练的视觉Transformer模型，专注于以人为中心的分割任务，支持1K高分辨率推理。

图像分割英语

Sapiens Pretrain 0.6b

Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型，擅长以人为中心的视觉任务。

图像分类英语

Sapiens Seg 0.6b Torchscript

Sapiens是一个基于3亿张1024x1024分辨率人类图像预训练的视觉Transformer模型家族，专注于以人为中心的视觉任务。

图像分割英语

Mast3r ViTLarge BaseDecoder 512 Catmlpdpt Metric

MASt3R是一个基于ViT架构的图像转3D模型，能够实现图像与3D空间的匹配

Indian Sign Language Classification

基于Google Vision Transformer (ViT)架构微调的印度手语图像分类模型，准确率达99.05%

Skin Types Image Detection

使用Vision Transformer (ViT)架构的面部图像分类模型，用于检测干性、中性、油性三种皮肤类型

Depth Anything Vitb14

Depth Anything 是一个基于大规模无标签数据训练的深度估计模型，能够从单张图像中预测深度信息。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase