Deeplabv3-MobileVit-X-Smallオープンソースモデル - 軽量型ソリューションでモバイル端末のセマンティックセグメンテーションタスクをサポート

ホーム

Deeplabv3 Mobilevit X Small

appleによって開発

軽量なビジョントランスフォーマーモデルで、MobileNetV2とトランスフォーマーモジュールを組み合わせ、モバイル向けセマンティックセグメンテーションタスクに適しています。

画像セグメンテーション

Transformers

オープンソースライセンス:その他 #軽量セマンティックセグメンテーション #モバイル最適化 #低パラメータ数

ダウンロード数 268

リリース時間 : 5/30/2022

モデル概要

このモデルはPASCAL VOCデータセットで事前学習されており、MobileViTの軽量アーキテクチャとDeepLabV3のセマンティックセグメンテーション能力を組み合わせ、リソースが限られた環境での画像セグメンテーションアプリケーションに適しています。

モデル特徴

軽量設計

MobileNetV2の軽量畳み込み層とトランスフォーマーのグローバル処理能力を組み合わせ、モバイルデプロイメントに適しています。

効率的なセグメンテーション

DeepLabV3ヘッド構造を採用し、軽量化を維持しながら高品質なセマンティックセグメンテーションを実現します。

位置エンコーディング不要

MobileViTモジュールはCNNの任意の位置に直接埋め込むことができ、追加の位置エンコーディングが不要です。

モデル能力

画像セマンティックセグメンテーション

モバイル画像処理

リアルタイムセグメンテーションタスク

使用事例

コンピュータビジョン

シーン理解

画像内の異なるオブジェクトをピクセルレベルで分類し、自動運転や監視などのシナリオに適用できます。

PASCAL VOCデータセットで77.1 mIOUを達成

モバイル画像処理

リソースが限られたデバイスでリアルタイムセマンティックセグメンテーションを実現します。

わずか2.9Mパラメータで、モバイルデプロイメントに適しています

🚀 MobileViT + DeepLabV3 (超小型モデル)

MobileViTモデルは、解像度512x512のPASCAL VOCで事前学習されています。このモデルは、Sachin MehtaとMohammad RastegariによるMobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformerで紹介され、このリポジトリで最初に公開されました。使用されているライセンスはAppleサンプルコードライセンスです。

免責事項: MobileViTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは、セマンティックセグメンテーションに使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

このモデルの使用方法は以下の通りです。

from transformers import MobileViTFeatureExtractor, MobileViTForSemanticSegmentation
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/deeplabv3-mobilevit-x-small")
model = MobileViTForSemanticSegmentation.from_pretrained("apple/deeplabv3-mobilevit-x-small")

inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits
predicted_mask = logits.argmax(1).squeeze(0)

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。

✨ 主な機能

MobileViTは、軽量で低レイテンシーの畳み込みニューラルネットワークで、MobileNetV2スタイルのレイヤーと、畳み込みにおける局所処理をトランスフォーマーを使用したグローバル処理に置き換える新しいブロックを組み合わせています。ViT (Vision Transformer) と同様に、画像データはトランスフォーマーレイヤーで処理される前に平坦化されたパッチに変換されます。その後、パッチは特徴マップに戻されます。これにより、MobileViTブロックをCNN内の任意の場所に配置することができます。MobileViTは位置埋め込みを必要としません。

このリポジトリのモデルは、セマンティックセグメンテーションのためにMobileViTバックボーンにDeepLabV3ヘッドを追加しています。

📚 ドキュメント

モデルの説明

このリポジトリのモデルは、セマンティックセグメンテーションのためにMobileViTバックボーンにDeepLabV3ヘッドを追加しています。

想定される用途と制限

このモデルはセマンティックセグメンテーションに使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

訓練データ

MobileViT + DeepLabV3モデルは、100万枚の画像と1000クラスからなるImageNet-1kで事前学習され、その後PASCAL VOC2012データセットでファインチューニングされました。

訓練手順

前処理

推論時には、画像は512x512に中央クロップされます。ピクセルは[0, 1]の範囲に正規化されます。画像はRGBではなくBGRのピクセル順序であることが想定されています。

事前学習

MobileViTネットワークは、8台のNVIDIA GPUでImageNet-1k上で300エポック、有効バッチサイズ1024で最初から学習され、3kステップの学習率ウォームアップの後、コサインアニーリングが行われます。また、ラベルスムージング交差エントロピー損失とL2重み減衰も使用されています。訓練解像度は、マルチスケールサンプリングを使用して160x160から320x320まで変化します。

DeepLabV3モデルを得るために、MobileViTは4台のNVIDIA A100 GPUを使用してPASCAL VOCデータセットでファインチューニングされました。

評価結果

モデル	PASCAL VOC mIOU	パラメータ数	URL
MobileViT-XXS	73.6	1.9 M	https://huggingface.co/apple/deeplabv3-mobilevit-xx-small
MobileViT-XS	77.1	2.9 M	https://huggingface.co/apple/deeplabv3-mobilevit-x-small
MobileViT-S	79.1	6.4 M	https://huggingface.co/apple/deeplabv3-mobilevit-small

BibTeXエントリと引用情報

@inproceedings{vision-transformer,
title = {MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2110.02178}
}