🚀 MobileViT + DeepLabV3(小型模型)
這是一個在PASCAL VOC數據集上以512x512分辨率預訓練的模型,結合了MobileViT和DeepLabV3,可用於圖像語義分割任務。
🚀 快速開始
你可以使用該原始模型進行語義分割。前往模型中心查找你感興趣的微調版本。
以下是使用此模型的示例代碼:
from transformers import MobileViTFeatureExtractor, MobileViTForSemanticSegmentation
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/deeplabv3-mobilevit-small")
model = MobileViTForSemanticSegmentation.from_pretrained("apple/deeplabv3-mobilevit-small")
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_mask = logits.argmax(1).squeeze(0)
目前,特徵提取器和模型均支持PyTorch。
✨ 主要特性
- MobileViT是一種輕量級、低延遲的卷積神經網絡,它將MobileNetV2風格的層與一個新的模塊相結合,該模塊使用Transformer將卷積中的局部處理替換為全局處理。
- 與ViT(視覺Transformer)類似,圖像數據在由Transformer層處理之前會被轉換為扁平化的圖像塊,之後這些圖像塊會被“解扁平化”回特徵圖,這使得MobileViT模塊可以放置在CNN的任何位置,且不需要任何位置嵌入。
- 本倉庫中的模型在MobileViT主幹網絡上添加了一個DeepLabV3頭部,用於語義分割。
📚 詳細文檔
模型描述
MobileViT是一種輕量級、低延遲的卷積神經網絡,它將MobileNetV2風格的層與一個新的模塊相結合,該模塊使用Transformer將卷積中的局部處理替換為全局處理。與ViT(視覺Transformer)類似,圖像數據在由Transformer層處理之前會被轉換為扁平化的圖像塊,之後這些圖像塊會被“解扁平化”回特徵圖,這使得MobileViT模塊可以放置在CNN的任何位置,且不需要任何位置嵌入。本倉庫中的模型在MobileViT主幹網絡上添加了一個DeepLabV3頭部,用於語義分割。
預期用途與限制
你可以使用該原始模型進行語義分割。前往模型中心查找你感興趣的微調版本。
訓練數據
MobileViT + DeepLabV3模型在ImageNet-1k數據集(包含100萬張圖像和1000個類別)上進行了預訓練,然後在PASCAL VOC2012數據集上進行了微調。
訓練過程
預處理
在推理時,圖像會被中心裁剪為512x512大小,像素會被歸一化到[0, 1]範圍,並且圖像預期為BGR像素順序,而非RGB。
預訓練
MobileViT網絡在8塊NVIDIA GPU上對ImageNet-1k數據集從頭開始訓練300個epoch,有效批量大小為1024,學習率預熱3000步,隨後採用餘弦退火策略。同時使用了標籤平滑交叉熵損失和L2權重衰減。訓練分辨率從160x160到320x320不等,採用多尺度採樣。為了得到DeepLabV3模型,MobileViT在PASCAL VOC數據集上使用4塊NVIDIA A100 GPU進行了微調。
評估結果
模型 |
PASCAL VOC平均交併比 |
參數數量 |
鏈接 |
MobileViT-XXS |
73.6 |
190萬 |
https://huggingface.co/apple/deeplabv3-mobilevit-xx-small |
MobileViT-XS |
77.1 |
290萬 |
https://huggingface.co/apple/deeplabv3-mobilevit-x-small |
MobileViT-S |
79.1 |
640萬 |
https://huggingface.co/apple/deeplabv3-mobilevit-small |
BibTeX引用和引用信息
@inproceedings{vision-transformer,
title = {MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2110.02178}
}
📄 許可證
本模型使用的許可證是Apple示例代碼許可證。
免責聲明:發佈MobileViT的團隊並未為此模型編寫模型卡片,此模型卡片由Hugging Face團隊編寫。
屬性 |
詳情 |
模型類型 |
MobileViT + DeepLabV3(小型模型) |
訓練數據 |
先在ImageNet - 1k數據集上預訓練,後在PASCAL VOC2012數據集上微調 |
標籤 |
視覺、圖像分割 |
數據集 |
PASCAL VOC |