deeplabv3-mobilevit-small開源模型 - 輕量級助力移動端語義分割任務

首頁

Deeplabv3 Mobilevit Small

由apple開發

輕量級視覺Transformer模型，結合MobileNetV2與Transformer模塊，適用於移動端語義分割任務

圖像分割

Transformers

#輕量級語義分割 #移動端優化 #Transformer-CNN混合

下載量 817

發布時間 : 5/30/2022

模型概述

該模型在MobileViT主幹網絡上添加DeepLabV3頭部，專為語義分割任務設計，在PASCAL VOC數據集上預訓練

模型特點

輕量級設計

結合MobileNetV2的輕量特性與Transformer的全局處理能力，適合移動端部署

高效分割

採用DeepLabV3頭部結構，在保持輕量化的同時實現精確的語義分割

多尺度訓練

預訓練階段採用160x160到320x320的多尺度採樣策略增強模型適應性

模型能力

圖像語義分割

移動端圖像處理

即時場景理解

使用案例

計算機視覺

自動駕駛場景理解

識別道路場景中的不同物體類別

在PASCAL VOC上達到79.1 mIOU

移動端圖像編輯

實現手機端即時背景替換/物體分割功能

🚀 MobileViT + DeepLabV3（小型模型）

這是一個在PASCAL VOC數據集上以512x512分辨率預訓練的模型，結合了MobileViT和DeepLabV3，可用於圖像語義分割任務。

🚀 快速開始

你可以使用該原始模型進行語義分割。前往模型中心查找你感興趣的微調版本。

以下是使用此模型的示例代碼：

from transformers import MobileViTFeatureExtractor, MobileViTForSemanticSegmentation
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/deeplabv3-mobilevit-small")
model = MobileViTForSemanticSegmentation.from_pretrained("apple/deeplabv3-mobilevit-small")

inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits
predicted_mask = logits.argmax(1).squeeze(0)

目前，特徵提取器和模型均支持PyTorch。

✨ 主要特性

MobileViT是一種輕量級、低延遲的卷積神經網絡，它將MobileNetV2風格的層與一個新的模塊相結合，該模塊使用Transformer將卷積中的局部處理替換為全局處理。
與ViT（視覺Transformer）類似，圖像數據在由Transformer層處理之前會被轉換為扁平化的圖像塊，之後這些圖像塊會被“解扁平化”回特徵圖，這使得MobileViT模塊可以放置在CNN的任何位置，且不需要任何位置嵌入。
本倉庫中的模型在MobileViT主幹網絡上添加了一個DeepLabV3頭部，用於語義分割。

📚 詳細文檔

模型描述

MobileViT是一種輕量級、低延遲的卷積神經網絡，它將MobileNetV2風格的層與一個新的模塊相結合，該模塊使用Transformer將卷積中的局部處理替換為全局處理。與ViT（視覺Transformer）類似，圖像數據在由Transformer層處理之前會被轉換為扁平化的圖像塊，之後這些圖像塊會被“解扁平化”回特徵圖，這使得MobileViT模塊可以放置在CNN的任何位置，且不需要任何位置嵌入。本倉庫中的模型在MobileViT主幹網絡上添加了一個DeepLabV3頭部，用於語義分割。

預期用途與限制

你可以使用該原始模型進行語義分割。前往模型中心查找你感興趣的微調版本。

訓練數據

MobileViT + DeepLabV3模型在ImageNet-1k數據集（包含100萬張圖像和1000個類別）上進行了預訓練，然後在PASCAL VOC2012數據集上進行了微調。

訓練過程

預處理

在推理時，圖像會被中心裁剪為512x512大小，像素會被歸一化到[0, 1]範圍，並且圖像預期為BGR像素順序，而非RGB。

預訓練

MobileViT網絡在8塊NVIDIA GPU上對ImageNet-1k數據集從頭開始訓練300個epoch，有效批量大小為1024，學習率預熱3000步，隨後採用餘弦退火策略。同時使用了標籤平滑交叉熵損失和L2權重衰減。訓練分辨率從160x160到320x320不等，採用多尺度採樣。為了得到DeepLabV3模型，MobileViT在PASCAL VOC數據集上使用4塊NVIDIA A100 GPU進行了微調。

評估結果

模型	PASCAL VOC平均交併比	參數數量	鏈接
MobileViT-XXS	73.6	190萬	https://huggingface.co/apple/deeplabv3-mobilevit-xx-small
MobileViT-XS	77.1	290萬	https://huggingface.co/apple/deeplabv3-mobilevit-x-small
MobileViT-S	79.1	640萬	https://huggingface.co/apple/deeplabv3-mobilevit-small

BibTeX引用和引用信息

@inproceedings{vision-transformer,
title = {MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2110.02178}
}

📄 許可證

本模型使用的許可證是Apple示例代碼許可證。

免責聲明：發佈MobileViT的團隊並未為此模型編寫模型卡片，此模型卡片由Hugging Face團隊編寫。

屬性	詳情
模型類型	MobileViT + DeepLabV3（小型模型）
訓練數據	先在ImageNet - 1k數據集上預訓練，後在PASCAL VOC2012數據集上微調
標籤	視覺、圖像分割
數據集	PASCAL VOC