EfficientFormer-L3-300オープンソースビジョンモデル - モバイルデバイス向けに最適化され、低レイテンシで高性能

ホーム

Efficientformer L3 300

snap-researchによって開発

EfficientFormer-L3はSnap Researchが開発した軽量なVision Transformerモデルで、モバイルデバイス向けに最適化されており、高性能を維持しながら低遅延を実現しています。

画像分類英語オープンソースライセンス:Apache-2.0 #モバイル最適化 #低遅延推論 #画像分類

ダウンロード数 279

リリース時間 : 1/7/2023

モデル概要

このモデルはEfficientFormerシリーズの一員で、合理的に設計されたTransformerアーキテクチャにより、モバイルデバイス上で効率的な画像分類タスクを実現します。

モデル特徴

モバイル最適化

モバイルデバイス向けに設計されており、iPhone 12などのデバイスで3ミリ秒の低遅延推論を実現

高性能

ImageNet-1Kデータセットで82.4%のTop-1精度を達成

効率的なアーキテクチャ

次元一貫性設計とCONV-BN融合の4Dモジュールを採用し、効率的な推論を実現

モデル能力

画像分類

セマンティックセグメンテーション

使用事例

コンピュータビジョン

モバイル画像分類

スマートフォンなどのモバイルデバイスでリアルタイムに画像分類タスクを実行

iPhone 12で3ミリ秒の低遅延を実現

スマートフォトアルバム管理

アルバム内の写真内容を自動分類

🚀 EfficientFormer-L1

EfficientFormer-L1は、Snap Researchによって開発された画像分類モデルです。このモデルは、モバイルデバイスでの低レイテンシと高い性能を両立することを目指しています。

🚀 クイックスタート

以下のコードを使用して、モデルを始めることができます。

基本的な使用法

import requests
import torch
from PIL import Image

from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher

# Load a COCO image of two cats to test the model
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# Load preprocessor and pretrained model
model_name = "huggingface/efficientformer-l3-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)

# Preprocess input image
inputs = processor(images=image, return_tensors="pt")

# Inference
with torch.no_grad():
	outputs = model(**inputs)

# Print the top ImageNet1k class prediction 
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")

✨ 主な機能

このモデルは、画像分類とセマンティックセグメンテーションに使用できます。モバイルデバイス（iPhone 12でテスト）では、CoreMLチェックポイントが低レイテンシでこれらのタスクを実行します。

📚 ドキュメント

モデルの詳細

EfficientFormer-L3は、Snap Researchによって開発された3つのEfficientFormerモデルの1つです。EfficientFormerモデルは、適切に設計されたトランスフォーマーが、高性能を維持しながらモバイルデバイスで極めて低いレイテンシを達成できることを証明するためにリリースされました。

このEfficientFormer-L3のチェックポイントは、300エポックで学習されました。

開発者: Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis, Sergey Tulyakov, Yanzhi Wang, Jian Ren
言語: 英語
ライセンス: このモデルは、apache-2.0ライセンスの下でライセンスされています
詳細情報のリソース:
- 研究論文
- GitHubリポジトリ

属性	详情
モデルタイプ	EfficientFormer-L3
学習データ	ImageNet-1K

学習

学習データ

このモデルは、ImageNet-1Kで学習されました。詳細情報は、データカードを参照してください。

学習手順

パラメータ: 31.4 M
学習エポック数: 300

NVIDIA A100とV100 GPUを備えたクラスタで学習されました。

評価結果

Top-1精度: ImageNet 10Kで82.4% レイテンシ: 3.0ms

引用情報

@article{li2022efficientformer,
  title={EfficientFormer: Vision Transformers at MobileNet Speed},
  author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
  journal={arXiv preprint arXiv:2206.01191},
  year={2022}
}

🔧 技術詳細

EfficientFormerのほとんどの設計は汎用的です。たとえば、次元一致設計とCONV-BN融合を備えた4Dブロックです。しかし、EfficientFormerの実際の速度は、他のプラットフォームでは異なる場合があります。たとえば、特定のハードウェアとコンパイラでGeLUがサポートされていないが、HardSwishが効率的に実装されている場合、演算子を適宜変更する必要があるかもしれません。提案されたレイテンシ駆動型スリミングは簡単で高速です。ただし、探索コストを考慮せず、列挙ベースのブルートサーチを行うと、より良い結果が得られるかもしれません。

このモデルはImageNet-1Kで学習されているため、そのデータセットに埋め込まれたバイアスがEfficientFormerモデルに反映されます。