ViT架構

# ViT架構

Vitmodel Skincheck

這是一個基於視覺變換器的模型，用於將面部皮膚類型分類為5個類別。

Transformers 英語

Coco Instance Eomt Large 1280

該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法，展示了ViT在圖像分割任務中的潛力。

Ade20k Panoptic Eomt Giant 1280

該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法，揭示了ViT在圖像分割任務中的潛力。

Ade20k Panoptic Eomt Large 1280

該論文提出了一種基於Vision Transformer (ViT) 的圖像分割模型，揭示了ViT在圖像分割任務中的潛力。

Ade20k Panoptic Eomt Large 640

該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法，展示了ViT在圖像分割任務中的潛力。

Ade20k Panoptic Eomt Giant 640

該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力，通過特定架構調整使其適用於分割任務。

Coco Panoptic Eomt Large 1280

該論文提出了一種新的視角，將Vision Transformer (ViT) 視為圖像分割模型，並探討了其在圖像分割任務中的潛力。

Coco Panoptic Eomt Large 640

該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力，通過特定架構調整使其適用於分割任務。

Coco Instance Eomt Large 640

該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法，展示了ViT在圖像分割任務中的潛力。

Coco Panoptic Eomt Giant 1280

該模型通過重新思考Vision Transformer (ViT) 的架構，展示了其在圖像分割任務中的潛力。

基於Vision Transformer (ViT)架構的微調模型，用於對胸部X光片進行分類，訓練於CheXpert數據集。

Transformers 英語

C-RADIOv2是NVIDIA開發的視覺特徵提取模型，提供多種尺寸版本，適用於圖像理解和密集視覺任務。

Vit Base Patch16 Clip 224.dfn2b

基於CLIP架構的視覺Transformer模型，由蘋果公司發佈的DFN2B-CLIP圖像編碼器權重

Llm Jp Clip Vit Base Patch16

日語CLIP模型，基於OpenCLIP框架訓練，支持零樣本圖像分類任務

文本生成圖像日語

Fairface Age Image Detection

基於Vision Transformer架構的圖像分類模型，在ImageNet-21k數據集上預訓練，適用於多類別圖像分類任務

Plant Identification Vit

基於Google Vision Transformer (ViT)架構微調的植物識別模型，在評估集上達到80.96%的準確率

Vit Base Patch16 Clip 224.laion400m E31

基於LAION-400M數據集訓練的視覺Transformer模型，支持零樣本圖像分類任務

Vit Base Patch32 Clip 224.laion2b E16

基於LAION-2B數據集訓練的Vision Transformer模型，支持零樣本圖像分類任務

Vit Base Patch32 Clip 224.laion400m E32

基於LAION-400M數據集訓練的Vision Transformer模型，支持OpenCLIP和timm雙框架使用

Vit Facial Expression Recognition

基於ViT架構的面部表情識別模型，在imagefolder數據集上微調，準確率達91.77%

Dust3r ViTLarge BaseDecoder 512 Dpt

DUSt3R是一個用於從圖像輕鬆實現幾何3D視覺的模型，能夠從單張或多張圖像重建3D場景。

Dust3r ViTLarge BaseDecoder 512 Linear

DUSt3R是一個用於從圖像生成3D幾何模型的深度學習模型，能夠輕鬆實現幾何3D視覺任務。

Vit Base Violence Detection

基於Vision Transformer(ViT)架構優化的暴力行為檢測模型，能夠將圖像分類為暴力或非暴力場景。

Transformers 英語

Dust3r ViTLarge BaseDecoder 224 Linear

DUSt3R是一個用於從圖像輕鬆實現幾何3D視覺的模型，能夠從單張或多張圖像重建3D場景。

Cvlface Adaface Vit Base Kprpe Webface12m

基於關鍵點相對位置編碼的人臉識別模型，採用ViT架構並在WebFace12M數據集上訓練

Transformers 英語

Vit Facial Expression Recognition

基於ViT的面部表情識別模型，在FER2013、MMI和AffectNet數據集上微調，能夠識別七種基本情緒

Finetuned Clothes

基於Google的ViT模型微調的服裝分類模型，支持7種服裝類別的圖像分類

AI VS REAL IMAGE DETECTION

基於Google Vision Transformer (ViT)架構微調的圖像分類模型，用於區分AI生成圖像與真實圖像

Skin Cancer Image Classification

基於視覺變換器(ViT)的皮膚癌圖像分類模型，可識別7種皮膚病變類型

Vit Base Nsfw Detector

基於Vision Transformer (ViT)架構的圖像分類模型，專門用於檢測圖像是否包含NSFW（不安全）內容。

Vogue Fashion Collection 15

基於Google Vision Transformer (ViT)微調的時尚系列分類模型，可識別15個頂級時尚品牌的服裝系列。

Vitforimageclassification

該模型是基於google/vit-base-patch16-224-in21k在CIFAR10數據集上微調的圖像分類模型，準確率達96.78%。

Vit Finetuned Vanilla Cifar10 0

基於Vision Transformer (ViT)架構在CIFAR-10數據集上微調的圖像分類模型，準確率達99.2%

Deepfake Vs Real Image Detection

基於Vision Transformer架構的圖像分類模型，用於檢測真實圖像與AI生成的偽造圖像。

Phikon是基於iBOT訓練的組織病理學自監督學習模型，主要用於從組織學圖像塊中提取特徵。

Transformers 英語

基於DINOv2方法訓練的小尺寸視覺Transformer模型，通過自監督學習提取圖像特徵

Organoids Prova Organoid

該模型是基於Google的ViT-base-patch16-224在圖像文件夾數據集上微調的圖像分類模型，在評估集上取得了85.76%的準確率。

SAM是一個能夠通過輸入提示（如點或框）生成高質量對象掩碼的視覺模型，支持零樣本分割任務

Transformers 其他

Clasificacion Vit Model Manuel Chaves

基於google/vit-base-patch16-224-in21k微調的圖像分類模型，在豆類數據集上達到97.74%的準確率

Driver Drowsiness Detection

基於ViT架構的駕駛員疲勞檢測模型，在UTA RLDD數據集上微調，準確率達97.5%

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase