🚀 MobileViT + DeepLabV3(小型模型)
这是一个在PASCAL VOC数据集上以512x512分辨率预训练的模型,结合了MobileViT和DeepLabV3,可用于图像语义分割任务。
🚀 快速开始
你可以使用该原始模型进行语义分割。前往模型中心查找你感兴趣的微调版本。
以下是使用此模型的示例代码:
from transformers import MobileViTFeatureExtractor, MobileViTForSemanticSegmentation
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/deeplabv3-mobilevit-small")
model = MobileViTForSemanticSegmentation.from_pretrained("apple/deeplabv3-mobilevit-small")
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_mask = logits.argmax(1).squeeze(0)
目前,特征提取器和模型均支持PyTorch。
✨ 主要特性
- MobileViT是一种轻量级、低延迟的卷积神经网络,它将MobileNetV2风格的层与一个新的模块相结合,该模块使用Transformer将卷积中的局部处理替换为全局处理。
- 与ViT(视觉Transformer)类似,图像数据在由Transformer层处理之前会被转换为扁平化的图像块,之后这些图像块会被“解扁平化”回特征图,这使得MobileViT模块可以放置在CNN的任何位置,且不需要任何位置嵌入。
- 本仓库中的模型在MobileViT主干网络上添加了一个DeepLabV3头部,用于语义分割。
📚 详细文档
模型描述
MobileViT是一种轻量级、低延迟的卷积神经网络,它将MobileNetV2风格的层与一个新的模块相结合,该模块使用Transformer将卷积中的局部处理替换为全局处理。与ViT(视觉Transformer)类似,图像数据在由Transformer层处理之前会被转换为扁平化的图像块,之后这些图像块会被“解扁平化”回特征图,这使得MobileViT模块可以放置在CNN的任何位置,且不需要任何位置嵌入。本仓库中的模型在MobileViT主干网络上添加了一个DeepLabV3头部,用于语义分割。
预期用途与限制
你可以使用该原始模型进行语义分割。前往模型中心查找你感兴趣的微调版本。
训练数据
MobileViT + DeepLabV3模型在ImageNet-1k数据集(包含100万张图像和1000个类别)上进行了预训练,然后在PASCAL VOC2012数据集上进行了微调。
训练过程
预处理
在推理时,图像会被中心裁剪为512x512大小,像素会被归一化到[0, 1]范围,并且图像预期为BGR像素顺序,而非RGB。
预训练
MobileViT网络在8块NVIDIA GPU上对ImageNet-1k数据集从头开始训练300个epoch,有效批量大小为1024,学习率预热3000步,随后采用余弦退火策略。同时使用了标签平滑交叉熵损失和L2权重衰减。训练分辨率从160x160到320x320不等,采用多尺度采样。为了得到DeepLabV3模型,MobileViT在PASCAL VOC数据集上使用4块NVIDIA A100 GPU进行了微调。
评估结果
模型 |
PASCAL VOC平均交并比 |
参数数量 |
链接 |
MobileViT-XXS |
73.6 |
190万 |
https://huggingface.co/apple/deeplabv3-mobilevit-xx-small |
MobileViT-XS |
77.1 |
290万 |
https://huggingface.co/apple/deeplabv3-mobilevit-x-small |
MobileViT-S |
79.1 |
640万 |
https://huggingface.co/apple/deeplabv3-mobilevit-small |
BibTeX引用和引用信息
@inproceedings{vision-transformer,
title = {MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2110.02178}
}
📄 许可证
本模型使用的许可证是Apple示例代码许可证。
免责声明:发布MobileViT的团队并未为此模型编写模型卡片,此模型卡片由Hugging Face团队编写。
属性 |
详情 |
模型类型 |
MobileViT + DeepLabV3(小型模型) |
训练数据 |
先在ImageNet - 1k数据集上预训练,后在PASCAL VOC2012数据集上微调 |
标签 |
视觉、图像分割 |
数据集 |
PASCAL VOC |