M

Mobilevit Xx Small

由apple開發
MobileViT是一種輕量級、低延遲的視覺Transformer模型,結合了CNN和Transformer的優勢,適合移動設備使用。
下載量 6,077
發布時間 : 5/30/2022

模型概述

該模型在ImageNet-1k數據集上進行了預訓練,可用於圖像分類任務。它結合了MobileNetV2風格的層與Transformer模塊,實現了高效的圖像處理。

模型特點

輕量級設計
模型參數量僅1.3M,適合移動設備和資源受限環境
混合架構
結合了CNN的局部特徵提取能力和Transformer的全局建模能力
無需位置編碼
相比傳統ViT模型,MobileViT不需要位置嵌入
多尺度訓練
訓練時採用多尺度採樣策略,增強了模型的適應性

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
通用圖像分類
將圖像分類為ImageNet-1k中的1000個類別
Top-1準確率69.0%,Top-5準確率88.9%
移動端視覺應用
適用於智能手機等移動設備上的即時圖像識別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase