ViT架构

# ViT架构

Vitmodel Skincheck

这是一个基于视觉变换器的模型，用于将面部皮肤类型分类为5个类别。

Transformers 英语

Coco Instance Eomt Large 1280

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，展示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Giant 1280

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，揭示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Large 1280

该论文提出了一种基于Vision Transformer (ViT) 的图像分割模型，揭示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Large 640

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，展示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Giant 640

该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力，通过特定架构调整使其适用于分割任务。

Coco Panoptic Eomt Large 1280

该论文提出了一种新的视角，将Vision Transformer (ViT) 视为图像分割模型，并探讨了其在图像分割任务中的潜力。

Coco Panoptic Eomt Large 640

该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力，通过特定架构调整使其适用于分割任务。

Coco Instance Eomt Large 640

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，展示了ViT在图像分割任务中的潜力。

Coco Panoptic Eomt Giant 1280

该模型通过重新思考Vision Transformer (ViT) 的架构，展示了其在图像分割任务中的潜力。

基于Vision Transformer (ViT)架构的微调模型，用于对胸部X光片进行分类，训练于CheXpert数据集。

Transformers 英语

C-RADIOv2是NVIDIA开发的视觉特征提取模型，提供多种尺寸版本，适用于图像理解和密集视觉任务。

图像特征提取

Vit Base Patch16 Clip 224.dfn2b

基于CLIP架构的视觉Transformer模型，由苹果公司发布的DFN2B-CLIP图像编码器权重

Llm Jp Clip Vit Base Patch16

日语CLIP模型，基于OpenCLIP框架训练，支持零样本图像分类任务

文本生成图像日语

Fairface Age Image Detection

基于Vision Transformer架构的图像分类模型，在ImageNet-21k数据集上预训练，适用于多类别图像分类任务

Plant Identification Vit

基于Google Vision Transformer (ViT)架构微调的植物识别模型，在评估集上达到80.96%的准确率

Vit Base Patch16 Clip 224.laion400m E31

基于LAION-400M数据集训练的视觉Transformer模型，支持零样本图像分类任务

Vit Base Patch32 Clip 224.laion2b E16

基于LAION-2B数据集训练的Vision Transformer模型，支持零样本图像分类任务

Vit Base Patch32 Clip 224.laion400m E32

基于LAION-400M数据集训练的Vision Transformer模型，支持OpenCLIP和timm双框架使用

Vit Facial Expression Recognition

基于ViT架构的面部表情识别模型，在imagefolder数据集上微调，准确率达91.77%

Dust3r ViTLarge BaseDecoder 512 Dpt

DUSt3R是一个用于从图像轻松实现几何3D视觉的模型，能够从单张或多张图像重建3D场景。

Dust3r ViTLarge BaseDecoder 512 Linear

DUSt3R是一个用于从图像生成3D几何模型的深度学习模型，能够轻松实现几何3D视觉任务。

Vit Base Violence Detection

基于Vision Transformer(ViT)架构优化的暴力行为检测模型，能够将图像分类为暴力或非暴力场景。

Transformers 英语

Dust3r ViTLarge BaseDecoder 224 Linear

DUSt3R是一个用于从图像轻松实现几何3D视觉的模型，能够从单张或多张图像重建3D场景。

Cvlface Adaface Vit Base Kprpe Webface12m

基于关键点相对位置编码的人脸识别模型，采用ViT架构并在WebFace12M数据集上训练

Transformers 英语

Vit Facial Expression Recognition

基于ViT的面部表情识别模型，在FER2013、MMI和AffectNet数据集上微调，能够识别七种基本情绪

Finetuned Clothes

基于Google的ViT模型微调的服装分类模型，支持7种服装类别的图像分类

AI VS REAL IMAGE DETECTION

基于Google Vision Transformer (ViT)架构微调的图像分类模型，用于区分AI生成图像与真实图像

Skin Cancer Image Classification

基于视觉变换器(ViT)的皮肤癌图像分类模型，可识别7种皮肤病变类型

Vit Base Nsfw Detector

基于Vision Transformer (ViT)架构的图像分类模型，专门用于检测图像是否包含NSFW（不安全）内容。

Vogue Fashion Collection 15

基于Google Vision Transformer (ViT)微调的时尚系列分类模型，可识别15个顶级时尚品牌的服装系列。

Vitforimageclassification

该模型是基于google/vit-base-patch16-224-in21k在CIFAR10数据集上微调的图像分类模型，准确率达96.78%。

Vit Finetuned Vanilla Cifar10 0

基于Vision Transformer (ViT)架构在CIFAR-10数据集上微调的图像分类模型，准确率达99.2%

Deepfake Vs Real Image Detection

基于Vision Transformer架构的图像分类模型，用于检测真实图像与AI生成的伪造图像。

Phikon是基于iBOT训练的组织病理学自监督学习模型，主要用于从组织学图像块中提取特征。

Transformers 英语

基于DINOv2方法训练的小尺寸视觉Transformer模型，通过自监督学习提取图像特征

Organoids Prova Organoid

该模型是基于Google的ViT-base-patch16-224在图像文件夹数据集上微调的图像分类模型，在评估集上取得了85.76%的准确率。

SAM是一个能够通过输入提示（如点或框）生成高质量对象掩码的视觉模型，支持零样本分割任务

Transformers 其他

Clasificacion Vit Model Manuel Chaves

基于google/vit-base-patch16-224-in21k微调的图像分类模型，在豆类数据集上达到97.74%的准确率

Driver Drowsiness Detection

基于ViT架构的驾驶员疲劳检测模型，在UTA RLDD数据集上微调，准确率达97.5%

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase