オープンソースMobileViTv2-1.0モデル - 画像分類に使用し、改良アルゴリズムで精度がより高い

ホーム

Mobilevitv2 1.0 Imagenet1k 256

appleによって開発

MobileViTv2はMobileViTの第2世代バージョンで、分離可能な自己注意メカニズムにより改良され、画像分類タスクに適しています。

画像分類

Transformers

オープンソースライセンス:その他 #軽量級ビジョントランスフォーマー #分離可能な自己注意 #モバイル端末向け画像分類

ダウンロード数 9,966

リリース時間 : 6/5/2023

モデル概要

MobileViTv2は軽量級のビジョントランスフォーマーモデルで、モバイルデバイス向けに最適化されており、主に画像分類タスクに使用されます。

モデル特徴

軽量設計

モバイルデバイス向けに最適化されており、計算効率が高いです。

分離可能な自己注意メカニズム

従来のマルチヘッド自己注意の代わりに分離可能な自己注意を採用し、計算効率を向上させています。

高性能画像分類

ImageNet-1kデータセットで優れた性能を発揮します。

モデル能力

画像分類

視覚的特徴抽出

使用事例

コンピュータビジョン

画像分類

画像をImageNet-1kの1000クラスに分類します

🚀 MobileViTv2 (mobilevitv2-1.0-imagenet1k-256)

MobileViTv2は、MobileViTの第2版です。画像分類に特化したモデルで、MobileViTの多頭自己注意を分離自己注意に置き換えることで構築されています。

🚀 クイックスタート

MobileViTv2は、MobileViTの第2版です。Sachin MehtaとMohammad RastegariによるSeparable Self-attention for Mobile Vision Transformersで提案され、このリポジトリで最初に公開されました。使用されているライセンスはApple sample code licenseです。

なお、MobileViTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの説明

MobileViTv2は、MobileViTの多頭自己注意を分離自己注意に置き換えることで構築されています。

想定される用途と制限

このモデルは画像分類に使用できます。関心のあるタスクについて微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

以下は、このモデルを使用してCOCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法です。

from transformers import MobileViTImageProcessor, MobileViTV2ForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = MobileViTImageProcessor.from_pretrained("shehan97/mobilevitv2-1.0-imagenet1k-256")
model = MobileViTV2ForImageClassification.from_pretrained("shehan97/mobilevitv2-1.0-imagenet1k-256")

inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits

# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。

📚 ドキュメント

学習データ

MobileViTモデルは、100万枚の画像と1,000のクラスから構成されるImageNet-1kデータセットで事前学習されています。

BibTeXエントリと引用情報

@inproceedings{vision-transformer,
title = {Separable Self-attention for Mobile Vision Transformers},
author = {Sachin Mehta and Mohammad Rastegari},
year = {2022},
URL = {https://arxiv.org/abs/2206.02680}
}

📄 ライセンス

このモデルはApple sample code licenseの下で公開されています。

📋 情報一覧

属性	详情
データセット	imagenet-1k
ライブラリ名	transformers
パイプラインタグ	image-classification
ライセンス	other
タグ	vision、image-classification