🚀 MobileViT + DeepLabV3 (小型モデル)
このモデルは、解像度512x512のPASCAL VOCで事前学習されたMobileViTモデルです。このモデルは、Sachin MehtaとMohammad Rastegariによる論文 MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer で紹介され、このリポジトリ で最初に公開されました。使用されているライセンスは Appleサンプルコードライセンス です。
免責事項: MobileViTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。
🚀 クイックスタート
このモデルは、セマンティックセグメンテーションに使用できます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブ を参照してください。
✨ 主な機能
- MobileViTは、MobileNetV2スタイルのレイヤーと、畳み込みにおける局所処理をトランスフォーマーを用いたグローバル処理に置き換える新しいブロックを組み合わせた軽量で低遅延の畳み込みニューラルネットワークです。
- このリポジトリのモデルは、MobileViTバックボーンに DeepLabV3 ヘッドを追加して、セマンティックセグメンテーションを行います。
📚 ドキュメント
モデルの説明
MobileViTは、MobileNetV2スタイルのレイヤーと、畳み込みにおける局所処理をトランスフォーマーを用いたグローバル処理に置き換える新しいブロックを組み合わせた軽量で低遅延の畳み込みニューラルネットワークです。ViT (Vision Transformer) と同様に、画像データはトランスフォーマーレイヤーで処理される前に平坦化されたパッチに変換されます。その後、パッチは特徴マップに戻されます。これにより、MobileViTブロックをCNN内の任意の場所に配置することができます。MobileViTは位置埋め込みを必要としません。
このリポジトリのモデルは、セマンティックセグメンテーションのために、MobileViTバックボーンに DeepLabV3 ヘッドを追加しています。
想定される用途と制限
この生モデルはセマンティックセグメンテーションに使用できます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブ を参照してください。
💻 使用例
基本的な使用法
from transformers import MobileViTFeatureExtractor, MobileViTForSemanticSegmentation
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/deeplabv3-mobilevit-small")
model = MobileViTForSemanticSegmentation.from_pretrained("apple/deeplabv3-mobilevit-small")
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_mask = logits.argmax(1).squeeze(0)
現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。
🔧 技術詳細
学習データ
MobileViT + DeepLabV3モデルは、100万枚の画像と1,000クラスからなる ImageNet-1k データセットで事前学習され、その後 PASCAL VOC2012 データセットで微調整されました。
学習手順
前処理
推論時には、画像は512x512に中央切り抜きされます。ピクセルは [0, 1] の範囲に正規化されます。画像はRGBではなくBGRのピクセル順であることが想定されています。
事前学習
MobileViTネットワークは、8台のNVIDIA GPUでImageNet-1k上で300エポック、有効バッチサイズ1024でゼロから学習され、3kステップの学習率ウォームアップの後、コサインアニーリングが行われます。また、ラベルスムージング交差エントロピー損失とL2重み減衰も使用されました。学習解像度は、マルチスケールサンプリングを使用して160x160から320x320まで変化します。
DeepLabV3モデルを取得するために、MobileViTは4台のNVIDIA A100 GPUを使用してPASCAL VOCデータセットで微調整されました。
評価結果
モデル |
PASCAL VOC mIOU |
# パラメータ |
URL |
MobileViT-XXS |
73.6 |
1.9 M |
https://huggingface.co/apple/deeplabv3-mobilevit-xx-small |
MobileViT-XS |
77.1 |
2.9 M |
https://huggingface.co/apple/deeplabv3-mobilevit-x-small |
MobileViT-S |
79.1 |
6.4 M |
https://huggingface.co/apple/deeplabv3-mobilevit-small |
BibTeXエントリと引用情報
@inproceedings{vision-transformer,
title = {MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2110.02178}
}
📄 ライセンス
このモデルは apple-amlr ライセンスの下で提供されています。