ImageNet分類

# ImageNet分類

PVT是一種基於Transformer的視覺模型，採用金字塔結構處理圖像，在ImageNet-1K上預訓練，適用於圖像分類任務。

Nat Base In1k 224

NAT-Base是基於ImageNet-1K訓練的視覺Transformer模型，採用鄰域注意力機制進行圖像分類。

Transformers 其他

Nat Small In1k 224

NAT-Small是基於鄰域注意力的分層視覺變換器，專為圖像分類任務設計

Transformers 其他

CvT-13是一種結合卷積神經網絡和視覺變換器的混合架構模型，在ImageNet-1k數據集上預訓練完成，適用於圖像分類任務。

ResNet-50是基於ImageNet-1k預訓練的殘差網絡模型，採用v1.5架構改進，適用於圖像分類任務。

基於ImageNet-1k訓練的ResNet模型，採用殘差連接結構，支持圖像分類任務

基於ImageNet-1k數據集預訓練的深度殘差網絡模型，用於圖像分類任務

基於imagenet-1k訓練的RegNet模型，通過神經架構搜索設計的高效視覺模型

基於ImageNet-1k訓練的RegNet圖像分類模型，通過神經架構搜索設計的高效網絡結構

Convnext Large 224 22k 1k

ConvNeXT是一個純卷積模型，受視覺Transformer設計啟發，在ImageNet-22k上預訓練並在ImageNet-1k上微調，性能優於傳統視覺Transformer。

Beit Large Patch16 224

BEiT是一種基於視覺Transformer(ViT)架構的圖像分類模型，通過自監督學習在ImageNet-21k上預訓練，並在ImageNet-1k上微調。

Vision Perceiver Conv

基於ImageNet預訓練的通用視覺感知器模型，採用卷積預處理和Transformer架構，支持圖像分類任務

Beit Base Patch16 384

BEiT是一種基於視覺Transformer架構的圖像分類模型，通過自監督方式在ImageNet-21k上預訓練，並在ImageNet-1k上微調。

基於ImageNet數據集預訓練的深度殘差網絡模型，用於圖像分類任務。

Beit Base Patch16 224

BEiT是一種基於視覺Transformer的模型，通過自監督學習在ImageNet-21k上預訓練，並在ImageNet-1k上微調，用於圖像分類任務。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase