ImageNet微調

# ImageNet微調

Convnextv2 Tiny.fcmae

基於ConvNeXt-V2的自監督特徵表示模型，採用全卷積掩碼自編碼器框架(FCMAE)進行預訓練，適用於圖像特徵提取和微調任務。

Swinv2 Large Patch4 Window12to16 192to256 22kto1k Ft

Swin Transformer v2是一種視覺Transformer模型，通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類和密集識別任務。

Data2vec Vision Base Ft1k

Data2Vec-Vision是基於BEiT架構的自監督學習模型，在ImageNet-1k數據集上微調，適用於圖像分類任務。

Data2vec Vision Large Ft1k

Data2Vec-Vision是一個基於BEiT架構的自監督學習視覺模型，在ImageNet-1k數據集上微調，適用於圖像分類任務。

Regnet Y 1280 Seer In1k

基於ImageNet-1k訓練的RegNet圖像分類模型，採用自監督預訓練和微調方法

Regnet Y 640 Seer In1k

基於imagenet-1k訓練的RegNet模型，採用自監督方式在數十億張隨機網絡圖像上預訓練後微調

Vit Base Patch16 224

基於ImageNet-21k預訓練和ImageNet微調的視覺變換器模型，用於圖像分類任務

Vit Base Patch16 384

Vision Transformer（ViT）是一種基於Transformer架構的圖像分類模型，先在ImageNet-21k上預訓練，後在ImageNet上微調。

Vit Large Patch16 224

基於Transformer架構的大規模圖像分類模型，在ImageNet-21k和ImageNet-1k數據集上預訓練和微調

Beit Large Patch16 384

BEiT是一種基於視覺Transformer的圖像分類模型，通過自監督方式在ImageNet-21k上預訓練，並在ImageNet-1k上微調。

Convnext Base 224 22k 1k

ConvNeXT是一個純卷積模型，受視覺Transformer設計啟發，在ImageNet-22k上預訓練並在ImageNet-1k上微調，性能優於傳統Transformer。

Vit Large Patch32 384

該視覺Transformer（ViT）模型先在ImageNet-21k數據集上預訓練，後在ImageNet數據集上微調，適用於圖像分類任務。

Vit Large Patch16 384

視覺變換器（ViT）是一種基於變換器架構的圖像分類模型，先在ImageNet-21k上預訓練，後在ImageNet上微調。

Vit Base Patch32 384

Vision Transformer（ViT）是一種基於Transformer架構的圖像分類模型，通過在ImageNet-21k和ImageNet數據集上進行預訓練和微調，實現了高效的圖像識別能力。

Beit Base Patch16 224

BEiT是一種基於圖像變換器的視覺模型，採用類似BERT的自監督預訓練方法，先在ImageNet-22k上預訓練和微調，再在ImageNet-1k上微調。

Deit Base Patch16 384

DeiT是一種高效訓練的Vision Transformer模型，在ImageNet-1k數據集上以384x384分辨率預訓練和微調，適用於圖像分類任務。

Beit Large Patch16 512

BEiT是一種基於視覺Transformer的圖像分類模型，通過自監督方式在ImageNet-21k上預訓練，並在ImageNet-1k上微調。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase