deeplabv3-mobilevit-x-small开源模型 - 轻量级方案助力移动端语义分割任务

首页

Deeplabv3 Mobilevit X Small

由 apple 开发

轻量级视觉Transformer模型，结合MobileNetV2与Transformer模块，适用于移动端语义分割任务。

图像分割

Transformers

开源协议:其他 #轻量级语义分割 #移动端优化 #低参数量

下载量 268

发布时间 : 5/30/2022

模型简介

该模型在PASCAL VOC数据集上预训练，结合了MobileViT的轻量级架构和DeepLabV3的语义分割能力，适合资源受限环境下的图像分割应用。

模型特点

轻量级设计

结合MobileNetV2的轻量级卷积层和Transformer的全局处理能力，适合移动端部署。

高效分割

采用DeepLabV3头部结构，在保持轻量化的同时实现高质量的语义分割。

无需位置编码

MobileViT模块可直接嵌入CNN任意位置，无需额外位置编码。

模型能力

图像语义分割

移动端图像处理

实时分割任务

使用案例

计算机视觉

场景理解

对图像中的不同物体进行像素级分类，适用于自动驾驶、监控等场景。

在PASCAL VOC数据集上达到77.1 mIOU

移动端图像处理

在资源受限的设备上实现实时语义分割。

仅需2.9M参数，适合移动端部署

🚀 MobileViT + DeepLabV3（超小尺寸模型）

本项目是在PASCAL VOC数据集上以512x512分辨率预训练的MobileViT模型。它由Sachin Mehta和Mohammad Rastegari在论文MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer中提出，并首次在此仓库发布。使用的许可证为Apple示例代码许可证。

声明：发布MobileViT的团队未为此模型编写模型卡片，此模型卡片由Hugging Face团队编写。

✨ 主要特性

MobileViT是一种轻量级、低延迟的卷积神经网络，它将MobileNetV2风格的层与一个新模块相结合，该模块使用Transformer以全局处理替代卷积中的局部处理。
与ViT（视觉Transformer）一样，图像数据在由Transformer层处理之前会被转换为扁平化的图像块，之后这些图像块会被“恢复”为特征图，这使得MobileViT模块可以放置在CNN的任何位置，且无需任何位置嵌入。
本仓库中的模型在MobileViT骨干网络上添加了DeepLabV3头部，用于语义分割任务。

🚀 快速开始

你可以使用该原始模型进行语义分割。可查看模型中心，查找针对你感兴趣任务的微调版本。

💻 使用示例

基础用法

from transformers import MobileViTFeatureExtractor, MobileViTForSemanticSegmentation
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/deeplabv3-mobilevit-x-small")
model = MobileViTForSemanticSegmentation.from_pretrained("apple/deeplabv3-mobilevit-x-small")

inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits
predicted_mask = logits.argmax(1).squeeze(0)

目前，特征提取器和模型均支持PyTorch。

📚 详细文档

模型描述

MobileViT是一种轻量级、低延迟的卷积神经网络，它将MobileNetV2风格的层与一个新模块相结合，该模块使用Transformer以全局处理替代卷积中的局部处理。与ViT（视觉Transformer）一样，图像数据在由Transformer层处理之前会被转换为扁平化的图像块，之后这些图像块会被“恢复”为特征图，这使得MobileViT模块可以放置在CNN的任何位置，且无需任何位置嵌入。本仓库中的模型在MobileViT骨干网络上添加了DeepLabV3头部，用于语义分割任务。

预期用途与限制

你可以使用该原始模型进行语义分割。可查看模型中心，查找针对你感兴趣任务的微调版本。

训练数据

MobileViT + DeepLabV3模型在ImageNet-1k数据集上进行预训练，该数据集包含100万张图像和1000个类别，然后在PASCAL VOC2012数据集上进行微调。

训练过程

预处理

在推理时，图像会被中心裁剪为512x512，像素会被归一化到[0, 1]范围，且图像预期为BGR像素顺序，而非RGB。

预训练

MobileViT网络在8块NVIDIA GPU上的ImageNet-1k数据集上从头开始训练300个epoch，有效批量大小为1024，学习率预热3000步，随后采用余弦退火策略。同时使用了标签平滑交叉熵损失和L2权重衰减。训练分辨率从160x160到320x320不等，采用多尺度采样。为得到DeepLabV3模型，在PASCAL VOC数据集上使用4块NVIDIA A100 GPU对MobileViT进行微调。

评估结果

模型	PASCAL VOC平均交并比	参数数量	链接
MobileViT-XXS	73.6	190万	https://huggingface.co/apple/deeplabv3-mobilevit-xx-small
MobileViT-XS	77.1	290万	https://huggingface.co/apple/deeplabv3-mobilevit-x-small
MobileViT-S	79.1	640万	https://huggingface.co/apple/deeplabv3-mobilevit-small

BibTeX引用和引用信息

@inproceedings{vision-transformer,
title = {MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2110.02178}
}