MobileViT-XX-Small開源視覺模型 - 輕量級低延遲適配移動設備

首頁

Mobilevit Xx Small

由apple開發

MobileViT是一種輕量級、低延遲的視覺Transformer模型，結合了CNN和Transformer的優勢，適合移動設備使用。

圖像分類

Transformers

開源協議:其他 #輕量級視覺Transformer #移動端優化 #低參數量

下載量 6,077

發布時間 : 5/30/2022

模型概述

該模型在ImageNet-1k數據集上進行了預訓練，可用於圖像分類任務。它結合了MobileNetV2風格的層與Transformer模塊，實現了高效的圖像處理。

模型特點

輕量級設計

模型參數量僅1.3M，適合移動設備和資源受限環境

混合架構

結合了CNN的局部特徵提取能力和Transformer的全局建模能力

無需位置編碼

相比傳統ViT模型，MobileViT不需要位置嵌入

多尺度訓練

訓練時採用多尺度採樣策略，增強了模型的適應性

模型能力

圖像分類

視覺特徵提取

使用案例

計算機視覺

通用圖像分類

將圖像分類為ImageNet-1k中的1000個類別

Top-1準確率69.0%，Top-5準確率88.9%

移動端視覺應用

適用於智能手機等移動設備上的即時圖像識別

🚀 MobileViT (超超小型模型)

MobileViT 是一個輕量級的圖像分類模型，結合了 MobileNetV2 風格的層和基於 Transformer 的全局處理模塊，可用於高效的圖像分類任務。

🚀 快速開始

你可以使用以下代碼將 COCO 2017 數據集中的圖像分類為 1000 個 ImageNet 類別之一：

from transformers import MobileViTFeatureExtractor, MobileViTForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/mobilevit-xx-small")
model = MobileViTForImageClassification.from_pretrained("apple/mobilevit-xx-small")

inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits

# 模型預測 1000 個 ImageNet 類別之一
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

目前，特徵提取器和模型都支持 PyTorch。

✨ 主要特性

MobileViT 是一種輕量級、低延遲的卷積神經網絡，它將 MobileNetV2 風格的層與一個新的模塊相結合，該模塊使用 Transformer 以全局處理替代卷積中的局部處理。
與 ViT（視覺 Transformer）一樣，圖像數據在由 Transformer 層處理之前會轉換為扁平化的圖像塊，之後這些圖像塊會“反扁平化”回特徵圖，這使得 MobileViT 模塊可以放置在 CNN 內的任何位置。
MobileViT 不需要任何位置嵌入。

📚 詳細文檔

模型描述

MobileViT 是一種輕量級、低延遲的卷積神經網絡，它將 MobileNetV2 風格的層與一個新的模塊相結合，該模塊使用 Transformer 以全局處理替代卷積中的局部處理。與 ViT（視覺 Transformer）一樣，圖像數據在由 Transformer 層處理之前會轉換為扁平化的圖像塊，之後這些圖像塊會“反扁平化”回特徵圖。這使得 MobileViT 模塊可以放置在 CNN 內的任何位置。MobileViT 不需要任何位置嵌入。

預期用途和限制

你可以使用原始模型進行圖像分類。請查看模型中心，以查找針對你感興趣的任務進行微調的版本。

訓練數據

MobileViT 模型在 ImageNet-1k 上進行了預訓練，這是一個由 100 萬張圖像和 1000 個類別組成的數據集。

訓練過程

預處理

訓練只需要基本的數據增強，即隨機裁剪和水平翻轉。為了在不進行微調的情況下學習多尺度表示，在訓練期間使用了多尺度採樣器，圖像大小從 (160, 160)、(192, 192)、(256, 256)、(288, 288)、(320, 320) 中隨機採樣。在推理時，圖像被調整/縮放為相同的分辨率 (288x288)，並在 256x256 處進行中心裁剪。像素被歸一化到 [0, 1] 範圍。圖像預期為 BGR 像素順序，而不是 RGB。

預訓練

MobileViT 網絡在 8 個 NVIDIA GPU 上的 ImageNet-1k 上從頭開始訓練 300 個 epoch，有效批量大小為 1024，學習率預熱 3000 步，然後進行餘弦退火。還使用了標籤平滑交叉熵損失和 L2 權重衰減。訓練分辨率從 160x160 到 320x320 不等，使用多尺度採樣。

評估結果

模型	ImageNet 前 1 準確率	ImageNet 前 5 準確率	參數數量	URL
MobileViT-XXS	69.0	88.9	1.3 M	https://huggingface.co/apple/mobilevit-xx-small
MobileViT-XS	74.8	92.3	2.3 M	https://huggingface.co/apple/mobilevit-x-small
MobileViT-S	78.4	94.1	5.6 M	https://huggingface.co/apple/mobilevit-small

BibTeX 引用和引用信息

@inproceedings{vision-transformer,
title = {MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2110.02178}
}