EfficientFormer-L1-300オープンソースビジュアルモデル - 無料でデプロイ可能、モバイルデバイスに低レイテンシかつ高パフォーマンスな体験をもたらす

ホーム

Efficientformer L1 300

snap-researchによって開発

EfficientFormer-L1はSnap Researchが開発した視覚Transformerモデルで、モバイルデバイス向けに最適化されており、高性能を維持しながら極めて低い遅延を実現します。

画像分類英語オープンソースライセンス:Apache-2.0 #モバイルデバイス低遅延 #画像分類 #視覚Transformer

ダウンロード数 513

リリース時間 : 12/28/2022

モデル概要

このモデルは主に画像分類タスクに使用され、モバイルデバイス上で効率的に動作するように最適化されており、リソースが限られた環境での視覚アプリケーションに特に適しています。

モデル特徴

モバイルデバイス最適化

モバイルデバイス向けに設計されており、iPhone 12などのデバイスで低遅延動作が可能

効率的なアーキテクチャ

次元一貫性のある設計と4Dブロック構造を採用し、計算効率を最適化

高性能

ImageNet-1Kで80.2%のTop-1精度を達成

モデル能力

画像分類

セマンティックセグメンテーション

使用事例

コンピュータビジョン

モバイル端末画像分類

スマートフォンなどのモバイルデバイスで効率的な画像分類を実現

iPhone 12で低遅延動作を実現

スマートフォトアルバム管理

アルバム内の写真内容を自動分類

🚀 EfficientFormer-L1

EfficientFormer-L1は、Snap Researchによって開発された画像分類モデルです。このモデルは、モバイルデバイスでの低レイテンシと高い性能を両立させることを目指しています。

🚀 クイックスタート

以下のコードを使用して、モデルを使い始めることができます。

import requests
import torch
from PIL import Image

from transformers import EfficientFormerImageProcessor, EfficientFormerForImageClassificationWithTeacher

# Load a COCO image of two cats to test the model
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# Load preprocessor and pretrained model
model_name = "huggingface/efficientformer-l1-300"
processor = EfficientFormerImageProcessor.from_pretrained(model_name)
model = EfficientFormerForImageClassificationWithTeacher.from_pretrained(model_name)

# Preprocess input image
inputs = processor(images=image, return_tensors="pt")

# Inference
with torch.no_grad():
	outputs = model(**inputs)

# Print the top ImageNet1k class prediction 
logits = outputs.logits
scores = torch.nn.functional.softmax(logits, dim=1)
top_pred_class = torch.argmax(scores, dim=1)
print(f"Predicted class: {top_pred_class}")

✨ 主な機能

このモデルは、画像分類とセマンティックセグメンテーションに使用できます。モバイルデバイス（iPhone 12でテスト）では、CoreMLチェックポイントが低レイテンシでこれらのタスクを実行します。

📚 ドキュメント

モデルの詳細

EfficientFormer-L1は、Snap Researchによって開発された3つのEfficientFormerモデルの1つです。EfficientFormerモデルは、適切に設計されたトランスフォーマーが、高性能を維持しながらモバイルデバイスで極めて低いレイテンシを達成できることを証明するために公開されました。

このEfficientFormer-L1のチェックポイントは、1000エポックで学習されました。

属性	详情
開発者	Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis, Sergey Tulyakov, Yanzhi Wang, Jian Ren
言語	英語
ライセンス	このモデルはapache-2.0ライセンスの下で提供されています
詳細情報リソース	研究論文、GitHubリポジトリ

制限事項とバイアス

EfficientFormerのほとんどの設計は汎用的ですが、例えば次元一致設計やCONV - BN融合を備えた4Dブロックなど、EfficientFormerの実際の速度は他のプラットフォームでは異なる場合があります。たとえば、特定のハードウェアとコンパイラでGeLUがサポートされていない一方でHardSwishが効率的に実装されている場合、演算子を適宜変更する必要があるかもしれません。提案されたレイテンシ駆動型のスリミングは簡単で高速ですが、探索コストを考慮せずに列挙ベースのブルートサーチを行うと、より良い結果が得られるかもしれません。

このモデルはImagenet - 1Kで学習されているため、そのデータセットに埋め込まれたバイアスがEfficientFormerモデルに反映されます。

学習

学習データ

このモデルはImageNet - 1Kで学習されました。詳細はデータカードを参照してください。

学習手順

パラメータ数: 12.3 M
GMACs: 1.3
学習エポック数: 1000

NVIDIA A100とV100 GPUを搭載したクラスタで学習されました。

評価結果

ImageNet 10KでのTop - 1精度: 80.2%

引用情報

@article{li2022efficientformer,
  title={EfficientFormer: Vision Transformers at MobileNet Speed},
  author={Li, Yanyu and Yuan, Geng and Wen, Yang and Hu, Eric and Evangelidis, Georgios and Tulyakov, Sergey and Wang, Yanzhi and Ren, Jian},
  journal={arXiv preprint arXiv:2206.01191},
  year={2022}
}