V

Vit Hybrid Base Bit 384

由google開發
混合視覺變換器(ViT)模型結合了卷積網絡和Transformer架構,用於圖像分類任務,在ImageNet上表現出色。
下載量 992.28k
發布時間 : 12/6/2022

模型概述

該模型是視覺變換器(ViT)的混合版本,通過利用卷積主幹網絡(BiT)的特徵作為Transformer的初始詞元,實現了高效的圖像分類。

模型特點

結合卷積與Transformer優勢
通過卷積主幹網絡提取特徵,再輸入Transformer編碼器,兼具局部特徵提取和全局關係建模能力。
高效訓練
相比純卷積網絡,訓練所需計算資源顯著減少,同時保持優異性能。
高分辨率支持
支持384x384分辨率輸入,在高分辨率下微調可獲得最佳結果。

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
ImageNet圖像分類
將圖像分類為1000個ImageNet類別之一。
在ImageNet基準測試中表現優異。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase