🚀 MobileViTv2 + DeepLabv3 (shehan97/mobilevitv2-1.0-voc-deeplabv3)
本模型是在分辨率为512x512的PASCAL VOC数据集上预训练的MobileViTv2模型。它可用于图像语义分割任务,为相关领域的研究和应用提供了有力支持。
🚀 快速开始
你可以使用此原始模型进行语义分割。你可以前往模型中心查找针对你感兴趣的任务进行微调后的版本。
✨ 主要特性
- MobileViTv2通过将MobileViT中的多头自注意力机制替换为可分离自注意力机制构建而成。
- 本仓库中的模型在MobileViT主干网络上添加了DeepLabV3头部,用于语义分割。
💻 使用示例
基础用法
from transformers import MobileViTv2FeatureExtractor, MobileViTv2ForSemanticSegmentation
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = MobileViTv2FeatureExtractor.from_pretrained("shehan97/mobilevitv2-1.0-voc-deeplabv3")
model = MobileViTv2ForSemanticSegmentation.from_pretrained("shehan97/mobilevitv2-1.0-voc-deeplabv3")
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_mask = logits.argmax(1).squeeze(0)
目前,特征提取器和模型均支持PyTorch。
📚 详细文档
模型描述
MobileViTv2通过将MobileViT中的多头自注意力机制替换为可分离自注意力机制构建而成。本仓库中的模型在MobileViT主干网络上添加了DeepLabV3头部,用于语义分割。
预期用途和局限性
你可以使用此原始模型进行语义分割。你可以前往模型中心查找针对你感兴趣的任务进行微调后的版本。
🔧 技术细节
训练数据
MobileViT + DeepLabV3模型在ImageNet - 1k数据集上进行了预训练,该数据集包含100万张图像和1000个类别,然后在PASCAL VOC2012数据集上进行了微调。
BibTeX引用和引用信息
@inproceedings{vision-transformer,
title = {Separable Self-attention for Mobile Vision Transformers},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2206.02680}
}
📄 许可证
该模型使用的许可证是Apple示例代码许可证。需要注意的是,发布MobileViT的团队并未为此模型编写模型卡片,此模型卡片由Hugging Face团队编写。