ImageNet-21k預訓練

# ImageNet-21k預訓練

Vit Large Patch16 224.orig In21k

基於Vision Transformer（ViT）的圖像分類模型，由Google Research在JAX框架下使用ImageNet-21k預訓練，後移植到PyTorch。適用於特徵提取和微調場景。

Vit Base Patch16 224.orig In21k

基於Vision Transformer的圖像分類模型，在ImageNet-21k上預訓練，適用於特徵提取和微調

Dog Breeds Multiclass Image Classification With Vit

使用谷歌視覺Transformer架構微調的犬種分類模型，支持120種犬類的圖像識別

Vit Base R50 S16 224.orig In21k

結合ResNet與Vision Transformer的混合圖像分類模型，基於ImageNet-21k預訓練，適用於特徵提取和微調場景。

Vit Large Patch32 224.orig In21k

基於Vision Transformer (ViT)架構的圖像分類模型，在ImageNet-21k數據集上預訓練，適用於特徵提取和微調場景。

Vit Huge Patch14 224.orig In21k

基於Vision Transformer (ViT)架構的大規模圖像特徵提取模型，在ImageNet-21k數據集上預訓練

Swinv2 Large Patch4 Window12 192 22k

Swin Transformer v2是一種視覺Transformer模型，通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類和密集識別任務。

Swin Base Patch4 Window7 224 In22k

Swin Transformer是一種基於分層窗口計算的視覺Transformer模型，在ImageNet-21k數據集上預訓練，適用於圖像分類任務。

Swin Base Patch4 Window12 384 In22k

Swin Transformer是一種基於移位窗口的分層視覺Transformer模型，專為圖像分類任務設計。

Beit Base Patch16 224 Pt22k

BEiT是一種基於視覺Transformer的模型，通過自監督學習在ImageNet-21k數據集上預訓練，用於圖像分類任務。

Vit Large Patch32 224 In21k

該視覺Transformer（ViT）模型在ImageNet-21k數據集上預訓練，適用於圖像分類任務。

Vit Large Patch16 224 In21k

基於ImageNet-21k數據集預訓練的視覺Transformer模型，適用於圖像特徵提取和下游任務微調。

Swin Large Patch4 Window7 224 In22k

Swin Transformer是一種基於移動窗口的分層視覺Transformer，在ImageNet-21k數據集上預訓練，適用於圖像分類任務。

Swin Large Patch4 Window12 384 In22k

Swin Transformer是一種基於分層窗口的視覺Transformer模型，在ImageNet-21k數據集上預訓練，適用於圖像分類任務。

Beit Large Patch16 224 Pt22k

BEiT是一種基於視覺Transformer（ViT）的自監督學習模型，通過ImageNet-21k數據集預訓練，用於圖像分類任務。

Vit Base Patch32 224 In21k

該視覺變換器（ViT）模型在ImageNet-21k數據集上以224x224分辨率進行了預訓練，適用於圖像分類任務。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase