V

Vit Hybrid Base Bit 384

Developed by google
混合視覺變換器(ViT)模型結合了卷積網絡和Transformer架構,用於圖像分類任務,在ImageNet上表現出色。
Downloads 992.28k
Release Time : 12/6/2022

Model Overview

該模型是視覺變換器(ViT)的混合版本,通過利用卷積主幹網絡(BiT)的特徵作為Transformer的初始詞元,實現了高效的圖像分類。

Model Features

結合卷積與Transformer優勢
通過卷積主幹網絡提取特徵,再輸入Transformer編碼器,兼具局部特徵提取和全局關係建模能力。
高效訓練
相比純卷積網絡,訓練所需計算資源顯著減少,同時保持優異性能。
高分辨率支持
支持384x384分辨率輸入,在高分辨率下微調可獲得最佳結果。

Model Capabilities

圖像分類
特徵提取

Use Cases

計算機視覺
ImageNet圖像分類
將圖像分類為1000個ImageNet類別之一。
在ImageNet基準測試中表現優異。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase