MobileViTv2-1.0-VOC-DeepLabV3開源語義分割模型 - 預訓練助力場景精準識別

Home

Mobilevitv2 1.0 Voc Deeplabv3

Developed by apple

基於MobileViTv2架構和DeepLabV3頭部的語義分割模型，在PASCAL VOC數據集上以512x512分辨率預訓練

圖像分割

Transformers

Open Source License:Other #輕量級圖像分割 #可分離注意力 #移動端優化

Downloads 29

Release Time : 6/6/2023

Model Overview

該模型結合了MobileViTv2的高效視覺Transformer架構和DeepLabV3的語義分割能力，適用於圖像分割任務

Model Features

高效視覺Transformer

採用可分離自注意力機制替代傳統多頭自注意力，提升移動設備上的計算效率

DeepLabV3頭部

結合DeepLabV3分割頭部，增強模型對多尺度特徵的捕捉能力

輕量化設計

專為移動和邊緣設備優化，平衡性能和計算資源需求

Model Capabilities

圖像分割

語義分割

像素級分類

Use Cases

計算機視覺

場景理解

識別和分割圖像中的不同物體和區域

在PASCAL VOC數據集上表現良好

自動駕駛

道路場景分割，識別車輛、行人、道路等元素

🚀 MobileViTv2 + DeepLabv3 (shehan97/mobilevitv2-1.0-voc-deeplabv3)

本模型是在分辨率為512x512的PASCAL VOC數據集上預訓練的MobileViTv2模型。它可用於圖像語義分割任務，為相關領域的研究和應用提供了有力支持。

🚀 快速開始

你可以使用此原始模型進行語義分割。你可以前往模型中心查找針對你感興趣的任務進行微調後的版本。

✨ 主要特性

MobileViTv2通過將MobileViT中的多頭自注意力機制替換為可分離自注意力機制構建而成。
本倉庫中的模型在MobileViT主幹網絡上添加了DeepLabV3頭部，用於語義分割。

💻 使用示例

基礎用法

from transformers import MobileViTv2FeatureExtractor, MobileViTv2ForSemanticSegmentation
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = MobileViTv2FeatureExtractor.from_pretrained("shehan97/mobilevitv2-1.0-voc-deeplabv3")
model = MobileViTv2ForSemanticSegmentation.from_pretrained("shehan97/mobilevitv2-1.0-voc-deeplabv3")

inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits

predicted_mask = logits.argmax(1).squeeze(0)

目前，特徵提取器和模型均支持PyTorch。

📚 詳細文檔

模型描述

MobileViTv2通過將MobileViT中的多頭自注意力機制替換為可分離自注意力機制構建而成。本倉庫中的模型在MobileViT主幹網絡上添加了DeepLabV3頭部，用於語義分割。

預期用途和侷限性

你可以使用此原始模型進行語義分割。你可以前往模型中心查找針對你感興趣的任務進行微調後的版本。

🔧 技術細節

訓練數據

MobileViT + DeepLabV3模型在ImageNet - 1k數據集上進行了預訓練，該數據集包含100萬張圖像和1000個類別，然後在PASCAL VOC2012數據集上進行了微調。

BibTeX引用和引用信息

@inproceedings{vision-transformer,
title = {Separable Self-attention for Mobile Vision Transformers},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2206.02680}
}