deeplabv3-mobilevit-x-small開源模型 - 輕量級方案助力移動端語義分割任務

Home

Deeplabv3 Mobilevit X Small

Developed by apple

輕量級視覺Transformer模型，結合MobileNetV2與Transformer模塊，適用於移動端語義分割任務。

圖像分割

Transformers

Open Source License:Other #輕量級語義分割 #移動端優化 #低參數量

Downloads 268

Release Time : 5/30/2022

Model Overview

該模型在PASCAL VOC數據集上預訓練，結合了MobileViT的輕量級架構和DeepLabV3的語義分割能力，適合資源受限環境下的圖像分割應用。

Model Features

輕量級設計

結合MobileNetV2的輕量級卷積層和Transformer的全局處理能力，適合移動端部署。

高效分割

採用DeepLabV3頭部結構，在保持輕量化的同時實現高質量的語義分割。

無需位置編碼

MobileViT模塊可直接嵌入CNN任意位置，無需額外位置編碼。

Model Capabilities

圖像語義分割

移動端圖像處理

即時分割任務

Use Cases

計算機視覺

場景理解

對圖像中的不同物體進行像素級分類，適用於自動駕駛、監控等場景。

在PASCAL VOC數據集上達到77.1 mIOU

移動端圖像處理

在資源受限的設備上實現即時語義分割。

僅需2.9M參數，適合移動端部署

🚀 MobileViT + DeepLabV3（超小尺寸模型）

本項目是在PASCAL VOC數據集上以512x512分辨率預訓練的MobileViT模型。它由Sachin Mehta和Mohammad Rastegari在論文MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer中提出，並首次在此倉庫發佈。使用的許可證為Apple示例代碼許可證。

聲明：發佈MobileViT的團隊未為此模型編寫模型卡片，此模型卡片由Hugging Face團隊編寫。

✨ 主要特性

MobileViT是一種輕量級、低延遲的卷積神經網絡，它將MobileNetV2風格的層與一個新模塊相結合，該模塊使用Transformer以全局處理替代卷積中的局部處理。
與ViT（視覺Transformer）一樣，圖像數據在由Transformer層處理之前會被轉換為扁平化的圖像塊，之後這些圖像塊會被“恢復”為特徵圖，這使得MobileViT模塊可以放置在CNN的任何位置，且無需任何位置嵌入。
本倉庫中的模型在MobileViT骨幹網絡上添加了DeepLabV3頭部，用於語義分割任務。

🚀 快速開始

你可以使用該原始模型進行語義分割。可查看模型中心，查找針對你感興趣任務的微調版本。

💻 使用示例

基礎用法

from transformers import MobileViTFeatureExtractor, MobileViTForSemanticSegmentation
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/deeplabv3-mobilevit-x-small")
model = MobileViTForSemanticSegmentation.from_pretrained("apple/deeplabv3-mobilevit-x-small")

inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits
predicted_mask = logits.argmax(1).squeeze(0)

目前，特徵提取器和模型均支持PyTorch。

📚 詳細文檔

模型描述

MobileViT是一種輕量級、低延遲的卷積神經網絡，它將MobileNetV2風格的層與一個新模塊相結合，該模塊使用Transformer以全局處理替代卷積中的局部處理。與ViT（視覺Transformer）一樣，圖像數據在由Transformer層處理之前會被轉換為扁平化的圖像塊，之後這些圖像塊會被“恢復”為特徵圖，這使得MobileViT模塊可以放置在CNN的任何位置，且無需任何位置嵌入。本倉庫中的模型在MobileViT骨幹網絡上添加了DeepLabV3頭部，用於語義分割任務。

預期用途與限制

你可以使用該原始模型進行語義分割。可查看模型中心，查找針對你感興趣任務的微調版本。

訓練數據

MobileViT + DeepLabV3模型在ImageNet-1k數據集上進行預訓練，該數據集包含100萬張圖像和1000個類別，然後在PASCAL VOC2012數據集上進行微調。

訓練過程

預處理

在推理時，圖像會被中心裁剪為512x512，像素會被歸一化到[0, 1]範圍，且圖像預期為BGR像素順序，而非RGB。

預訓練

MobileViT網絡在8塊NVIDIA GPU上的ImageNet-1k數據集上從頭開始訓練300個epoch，有效批量大小為1024，學習率預熱3000步，隨後採用餘弦退火策略。同時使用了標籤平滑交叉熵損失和L2權重衰減。訓練分辨率從160x160到320x320不等，採用多尺度採樣。為得到DeepLabV3模型，在PASCAL VOC數據集上使用4塊NVIDIA A100 GPU對MobileViT進行微調。

評估結果

模型	PASCAL VOC平均交併比	參數數量	鏈接
MobileViT-XXS	73.6	190萬	https://huggingface.co/apple/deeplabv3-mobilevit-xx-small
MobileViT-XS	77.1	290萬	https://huggingface.co/apple/deeplabv3-mobilevit-x-small
MobileViT-S	79.1	640萬	https://huggingface.co/apple/deeplabv3-mobilevit-small

BibTeX引用和引用信息

@inproceedings{vision-transformer,
title = {MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2110.02178}
}