V

Vit Base R50 S16 224.orig In21k

由timm開發
結合ResNet與Vision Transformer的混合圖像分類模型,基於ImageNet-21k預訓練,適用於特徵提取和微調場景。
下載量 876
發布時間 : 12/23/2022

模型概述

該模型是一個結合了ResNet與Vision Transformer(ViT)的混合圖像分類模型,由論文作者在JAX框架下基於ImageNet-21k預訓練,後移植到PyTorch。不含分類頭,適用於特徵提取和微調。

模型特點

混合架構
結合ResNet與Vision Transformer的優勢,提升圖像特徵提取能力。
預訓練模型
基於ImageNet-21k大規模數據集預訓練,具有強大的特徵提取能力。
靈活應用
不含分類頭,適用於特徵提取和微調場景。

模型能力

圖像分類
圖像特徵提取

使用案例

計算機視覺
圖像分類
使用該模型進行圖像分類任務,支持多種類別識別。
特徵提取
提取圖像的高層特徵,用於後續任務如目標檢測、圖像分割等。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase